一直以来,男男性行为者(MSM)艾滋病毒(HIV)感染和性传播感染(STIs)的风险很高,近年来由于各种保护措施的局限性等原因患病人数不断增加。若能开发出可以对HIV/STIs进行诊断的预测工具,帮助临床服务部门识别高风险个体并优先考虑医疗资源的使用,可以更好的帮助MSM人群预防或控制HIV/STIs的感染。然而传统的HIV/STIs诊断预测方法是采用回归模型,如Logistic回归、Poisson回归、Cox比例风险回归等,它们只能适用于相对较少的协变量,预测精度值得怀疑。机器学习的方法可以在大型数据集中合并更多的协变量,处理预测者和结果之间的复杂关系,实现更高精度的预测,所以为了能更加方便准确的对MSM人群进行HIV/STIs诊断,西安交通大学张磊教授及其团队采用了不同的机器学习算法建立了对MSM人群进行HIV/STIs诊断的预测模型。近日,该研究成果“Predicting the diagnosis of HIV and sexually transmitted infections among men who have sex with men using machine learning approaches” 在Journal of Infection期刊发表,该期刊主要发表与感染有关的各个方面的文章,包括临床医学、微生物学和流行病学等方面。其2019年的影响因子为4.842。
该研究利用了四种机器学习的方法进行建模,分别为梯度提升法(GBM)、随机森林(RF)、深度学习(DL)和极端梯度提升(XGBoost),为了找出最优的模型,该研究除了对这四种模型进行比较之外,还与传统的多因素logistic回归(MLR)进行建模的结果比较。研究发现,通过对AUC进行比较,机器学习模型提供了比MLR模型更准确的诊断预测。在机器学习模型中,GBM的性能最好,对HIV、梅毒、淋病和衣原体的AUC分别为76.3%、85.8%、75.5%和68.0%。其次是XGBoost(71.1%,82.2%,70.3%,66.4%),RF(72.0%,81.9%,67.2%,64.3%),DL(75.8%,81.0%,67.5%,65.4%),MLR评分最低(69.8%、80.1%、67.2%、63.2%)。

为进一步识别出哪些风险预测因子是HIV/STIs诊断的关键,该研究根据表现最好的GBM模型进行分析,得出既往梅毒感染史是HIV诊断的最重要的预测因素(16.7%),其次是澳大利亚居住地(10.4%),过去12个月与非固定的男性性伴侣发生接受性肛交性行为时安全套的使用频率(9.4%),在澳大利亚居住年数(8.3%),以及性传播疾病感染症状(6.3%)。对于HIV诊断,排名前十位的预测因子对预测模型的贡献为73.6%。在对梅毒、淋病和衣原体的诊断中,其主要预测变量有所不同,前十位的预测因子所能解释的程度也有所不同。

该研究中所有的机器学习模型都将自我报告的性传播疾病感染症状确定为HIV/STIs诊断的关键预测因子。鉴于尿道淋病感染和梅毒通常具有临床症状,该结果在预期之内。但是艾滋病毒和衣原体感染通常没有症状,所以性传播感染症状是这两种感染的关键预测因素有点令人惊讶。不过,一种性传播感染的存在通常预示着另一种性传播感染的存在,它们通常共存,因此梅毒和淋病的症状可能在艾滋病病毒和衣原体感染的预测中发挥作用,因为所有感染都是通过常见的风险行为传播的。
总之该研究表明,机器学习方法在预测HIV/STIs的诊断方面比传统的多因素Logistic回归模型更具优势。该研究所有的预测因素都是自我报告的,根据研究结果构建一种用户友好的、基于互联网的自我评估工具将对帮助MSM在非临床环境下识别他们感染HIV/STIs的风险具有重要的意义。其次在临床环境中,这一工具将帮助临床医生在临床会诊前对高危个体进行分诊,提高对HIV/STIs潜在风险患者的警惕。再者该工具可通过对个人进行风险评估提供社区中HIV/STIs总体风险的量化信息,对行为和流行病学监测具有重要意义。
张磊教授主要从事公共卫生与数学、统计学、人工智能等领域的交叉学科研究,已有系列研究成果发表在Lancet Infectious Diseases、Lancet HIV、Genetics in Medicine等国际高影响力杂志。其于2006年在澳大利亚新南威尔士大学获医学博士学位,先后在德国柏林洪堡大学、澳大利亚新南威尔士大学和莫纳什大学任职,是WHO特聘顾问。2018年7月入选西安交通大学“青年拔尖人才”A类,同年11月正式入职公共卫生学院。
原文链接:https://www.journalofinfection.com/article/S0163-4453(20)30702-7/fulltext