骨质疏松症是老龄化社会面临的重大公共卫生问题,其诊断主要依赖具有放射性的双能X线吸收检测(DXA)。本项目旨在建立一种无创、快速的骨质疏松症机器学习预测模型。采用横断面研究方法,基于韩国国家健康与营养调查(KNHANES)2008-2011年数据集进行分析。以原始数据中的DXA检测T值作为结局指标,将异常DXA结果(包括骨量减少和骨质疏松)纳入研究。通过包含梯度提升(GradientBoost)、分类提升(CatBoost)和极限梯度提升(XGBoost)三种算法的机器学习模型预测DXA结果,其中二分类模型性能主要采用受试者工作特征曲线下面积(AUC)评估,多分类模型性能通过准确率(ACC)进行比较。本项目共纳入18,179名参与者(开发数据集14,747人,外部验证数据集3,432人)。全部受试者中11,742人(64.6%)DXA结果正常。经筛选后,我们建立了包含人口统计学资料、体格检查指标和营养问卷数据三大类变量的机器学习模型。最终模型预测DXA异常的AUC达0.845(95%CI:0.831-0.861),特异度(SPE)为0.897(95%CI:0.893-0.902);外部验证集的AUC为0.876(95%CI:0.874-0.877),特异度为0.909(95%CI:0.906-0.912)。在进一步区分正常、骨量减少和骨质疏松的三分类模型中,准确率达0.724(95%CI:0.717-0.736),特异度为0.803(95%CI:0.797-0.813);外部验证集的准确率为0.744(95%CI:0.742-0.846),特异度为0.819(95%CI:0.818-0.821)。该成果有助于在人群尤其是社区层面开展DXA异常早期筛查,不仅可减少不必要的放射性检查,还能为后续专科诊疗提供支持。
