心血管疾病(cardiovascular disease,CVD)是一项巨大的健康挑战,也是全球发病率和死亡率的主要原因。2022年世界卫生组织报告称,近1/3的死亡直接归因于心肌或血管疾病,估计每年导致1790万人死亡。在过去的几十年中,开发了很多CVD风险预测模型,在临床医学和公共卫生领域都有广泛的应用,如Framingham风险评分(Framingham risk score,FRS)、2013年美国心脏病学会风险评分、汇总队列方程(pooled cohort equations,PCEs)和Q风险指数(QRISK)等。医生通过这些模型评估患者的未来CVD风险,从而制定出个性化的预防和治疗方案,帮助决策者识别出具有高CVD风险的人群。许多国家和地区都建立了CVD风险预测模型,为公众提供心血管健康评估服务。尽管基于有限数量的危险因素建立的经典预测模型获得了较大的精确度,然而提高剩余风险的预测能力还需纳入更多有价值的指标,使用更精确的算法。随着大数据和人工智能技术的发展,机器学习方法构建CVD风险预测模型成为了研究热点。本文对CVD的经典和新型危险因素的进展,以及基于不同方法构建的CVD风险预测模型进行了概述,尤其是机器学习方法,旨在为CVD风险预测提供理论依据和更多选择。
1 CVD的危险因素的进展
1.1 经典危险因素的发展与评价
1.1.1 人口学因素
年龄、性别、教育程度都是CVD风险预测中重要的危险因素。不同年龄段人群的CVD风险不尽相同,CVD风险会随着年龄的增长而增加。近年来,欧美国家基于不同年龄段的人群陆续建立和应用更准确的CVD风险预测模型。男女性不同的生理特征明显对CVD风险预测的贡献不同,对不同性别人群开发特定的预测模型很有必要。美国专门建立了女性和男性的雷诺(Reynolds)风险评分,总体而言,女性的CVD风险状况在年轻时通常比男性更低,CVD发病率也低于男性,但绝经后女性的CVD风险增加。近年来我国开发了实用的性别特异性风险模型,以预测CVD的10年风险。教育程度对 CVD的发生、发展也有一定的影响,且与社会经济地位显著相关。多项研究已证实低学历人群往往伴随着更高风险的CVD风险和结局。
1.1.2 代谢综合征
高血压、高血脂、糖尿病、肥胖也是CVD风险预测的经典指标。高血压的患病人数逐年增加,近几十年来高血压的防控加强,其定义标准也呈现越来越严格的趋势,指南建议根据不同人群制定个体化的降压目标是防控CVD的关键。高血脂与CVD风险密切相关。最新指南建议根据个体的CVD风险等级分层管理血脂,以低密度脂蛋白胆固醇(low density lipoprotein-cholesterol,LDL-C)、非高密度脂蛋白胆固醇(non-high density lipoprotein-cholesterol,non-HDL-C)为主要降脂靶点,还将总胆固醇、脂蛋白 B、高密度脂蛋白胆固醇(high density lipoprotein-cholesterol,HDL-C)、脂蛋白(a)[lipopro tein(a),Lp(a)]列入其他干预靶点。糖尿病患者的动脉粥样硬化性心血管疾病(atheroscleroti ccardiovaculsar disease,ASCVD)的发生率和死亡率较高,最新指南建议糖尿病患者每年至少评估一次 CVD 风险,且采用综合控制血糖、血压和血脂的方法降低相关并发症风险。肥胖通过多种机制影响动脉粥样硬化,促进冠心病的发展,体重指数、腰围等是患者CVD风险预测中肥胖的常用指标。
1.1.3 其他经典危险因素
吸烟、血清总同型半胱氨酸(homocysteine,Hcy)、尿酸等也是CVD风险预测中的重要危险因素。吸烟人群的CVD和脑卒中的患病率和死亡率都明显增高。相比于不吸烟的人群,每天吸烟导致CVD风险增加50%左右。Hcy与CVD显著相关,是冠心病、脑卒中、CVD全因死亡生率的独立危险发因素。有研究表明当 Hcy升高至10~15μmol/L时,脑卒中、CVD和新发高血压的风险显著增加,Hcy预测脑卒中的最佳临界点为13.4μmol/L。尿酸是嘌呤的代谢产物,高尿酸血症已成为CVD发生和死亡的独立危险因素。有研究显示在高风险人群中,男性和女性高尿酸血症的全因死亡风险比(hazardratio,HR)分别为2.08、CVD死亡HR分别为2.09和1.79,2.01,且系,男性和女性的尿酸临界值分别为呈“U 型”关>370.5、<180.5μmol/L和>327.65、<165.7μmol/L。
1.2 新型危险因素指标的筛选与评价
1.2.1 代谢性标志物
代谢在 CVD 的病理生理起重要作用,在 CV中D风险预测中脂代谢相关参数如Lp(a)、非传统血脂指数、小密度低密度脂蛋白(small density low-densitylipoprotein,sdLDL-C)、载脂蛋白B(apoprotein B,apoB)与载脂蛋白 A-1(apoprotein A-1,apoA-1)比值(apo B/A-1)、甘油三酯葡萄糖 (triglyceride glucose,TyG)指数、残余胆固醇等都是新型危险因素。既往研究表明,在 FRS和 Reynolds模型中添加Lp(a),能轻微改善CVD风险预测。Lp(a)被证实是CVD的重要预测因子。有研究显示,Lp(a)≥150nmol/L时CVD 相对风险(H增加更显著R:1.50比1.16)。sdLDL-C颗粒是动脉粥样硬化性血脂异常的标志。一项流行病学研究表明,将sdLDL-C添加到PCEs中时,sdLDL-C≥50mg/dL可使 ASCVD风险增加 (HR≥1.50)。ApoB/ApoA-1是CVD的一个简单、准确的新型危险因素。Deng等基于血管内光学相干断层扫描的研究显示,斑块破裂、糜烂或血栓患者的ApoB/A-1高于无致病斑的患者,apoB/A-1是ASCVD患者斑块破裂、糜烂和血栓的独立预测因子。此外,有研究表示在冠心病患者中,与总胆固醇/HDL-C相比,apoB/A-1预测冠心病结局的受试者操作特征 (receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)更高(0.604比0.525)。TyG 指数近来被认为是胰岛素抵抗的替代标志物,与 CVD风险升高相关。将TyG指数添加到FRS模型中可显著改善CVD的鉴别和重新分类,可作为非糖尿病人群有效、低成本的CVD预测标志物。残余胆固醇指总胆固醇减去HDL-C和LDL-C,即极低密度脂蛋白(very low-density lipoprotein,VLD物中的所有L)、乳糜微粒及其残余胆固醇,在动脉粥样硬化的发展中起着重要作用。有学者提出残余胆固醇是LDL-C水平持续<70mg/dL(1.82mmol/L)的稳定型冠状动脉疾病患者未来心血管事件的重要预测因子(HR=1.62)。
1.2.2 炎症相关标志物
炎症与动脉粥样硬化和发症的发病机制密并切相关。C 反应蛋白(C-reactiveprotein,CRP)、白细胞介素-6(interleukin-6,IL-6)、纤维蛋白原、可溶性 CD40(solubleCD40,sCD40)和CD40配体(CD40 ligand,CD40L)等炎症标志物被认为是CVD的独立危险因素。CRP不仅是一种非特异的炎症标志物,其本身也直接参与了动脉粥样硬化等CVD的发生和发展。研究表明,CRP水平的持续升高可预测未来普通人群CVD(HR=1.29)、癌症(HR=1.08)的发生和死亡率 (HR=1.10)。此外,CRP、中性粒细胞和淋巴细胞在内的炎症风险标志物对脑卒中结局也具有很强的独立预测作用[49]。IL-6也是一种关键的炎症指标,在炎症反应的早期阶段,IL-6会迅速增加,与动脉粥样硬化的发展、血管内皮功能受损和血栓形成的增加相关。Georgakis等研究显示,CVD风险的增加与基线超敏 CRP水平呈线性相关,遗传预测的IL-6受体介导的信号传导活性与较高的 CVD 风险相关。此外,CRP、纤维蛋白原或IL-6的时间变化与死亡和CVD风险也有关联,且IL-6持续高值的男性全因死亡风险是持续低值的2.3倍。sCD40和CD40L是肿瘤坏死因子受体超家族的共刺激分子。有研究表明血浆sCD40水平还与颈动脉粥样硬化的严重程度相关,并可预测未来的心血管事件。全身免疫炎症指数(systemic immune inflammatory index,SII)的计算公式为:SII=(血小板计数×中性粒细胞计数)/淋巴细胞计数。有研究证明SII是全因死亡(HR=1.09)和 CVD 死亡(HR =1.14)的独立危险因素,对10年生存率具有显著的预测价 值 (AUC=0.847),灵 敏 度 和 特 异 度 超 过75%。
1.2.3 其他新型标志物
1.2.3.1 新型生物标志物
半乳糖凝集素-3(galactin-3,Gal-3)、生长分化因子15(growth differentiation factor-15,GDF-15)、可溶性人基质裂解素-2(soluble stromelysin-2,sST2)、脂蛋白相关磷脂酶 A2(lipoprotein-associated phospholipase,Lp-PLA2)等也被证明能够作为 CVD 潜在的预测指标。Gal-3 是一种β-半乳糖苷结合凝集素,在CVD中发挥作用。Aguilar等研究表明,较高的Gal-3水平与冠心病(HR=1.30),缺血性脑卒中(HR=1.42),心力衰竭(HR=1.44)和死亡率 (HR=1.56)均显GD著相关。F-15是心肌细胞在氧化应激等刺激时产生的心脏保护细胞因子,是CVD的新型危险因素。Pareek等评估显示在普通人群中Gal-3预测CVD事件具有增量价值(AUC:0.721比0.703)。GDF-15还是心力衰竭的独立预测因子。sST2是肌细胞拉伸和纤维化的产物,已有研究确定sST2是一种心脏生物标志物。Patel等进行的前瞻性队列研究表明,sST2与冠心病患者的全因死亡风险有较强相关性(HR=2.20)。关于炎症标志物使用的指南推荐血浆Lp-PLA2活性作为 ASCVD 的诊断指标,但将Lp-PLA2添加到传统CVD风险预测模型中准确性并无明显增强,因此对亚临床疾病人群似乎不必进行Lp-PLA2筛查。
1.2.3.2 影像学指标
心外膜脂肪和动脉硬度被认为是动脉粥样硬化的重要新型标志物。心外膜脂肪在解剖学和功能上接近心脏,在冠状动脉粥样硬化中发挥作用。有证据表明心外膜脂肪与不健康的心血管结构和功能独立关联“5]。West 等通过深度学习网络来量化心外膜脂肪体积,显示心外膜脂肪体积与全因死亡率(HR-1.28)心肌梗死(HR=1.26)和脑卒中(HR=1.20)显著相关。动脉硬度会随着年龄的增加而增加,是 CVD血管老化过程的重要标志物与CVD结局和死亡风险增加有关。脉搏波传导速度(pulse wave velocity,PWV)可以无创量化动脉硬度,也是预测未来心血管事件的重要指标“。2020年Lu等轨迹分析显示,年龄和收缩压是踝-肱动脉PWV的主要决定因素。2022年Vasan等基于Framingham后代研究确定了动脉硬度对多种健康结局的长期预后的重要性,尤其是50岁以下人群。
1.2.3.3 微小RNA(microRNA)
参与一系列病理生理细胞效应和动脉粥样硬化的分子信号通路被证实为预测 CVD的新型标志物。有研究显示在普通人群中血清miR-423-3p添加到传统危险因素模型能改善对CVD结局的预测(AUC:0.78比0.806)白蛋白尿相关的 microRNA(miR-126-3p、miR-1260b和 miR-374a-5p)是动脉粥样硬化的先兆,其中miR-1263p升高与心血管事件(HR=1.48)和脑卒中(HR2.49)相关。此外,miR-342、miR-200c3p被证明与炎症、血管健康有关,但在CVD风险预测中的作用还需进一步探究。
1.2.3.4 脂肪肝
非酒精性脂肪性肝病(nonialcoholc fatty liver disease,NAFLD)是一种普遍的肝脏疾病。大量证据支持NAFLD与CVD的患病率和发病率增加有关。近期有研究表明,NAFLD组织学严重程度与ASCVD的10年风险相关(OR=8.11)。此外,Henson等报告显示,PCE在NAFLD的心血管风险评估中总体表现欠佳,特别是在中度至重度脂肪变性和女性个体中。在这些人群中,可能需要在较低的风险阈值下考虑一级预防,来改善这一高风险人群的风险分层。
2 不同构建方法的风险预测模型的进展
2.1 经典风险评估建模方法构建的模型
2.1.1 Cox风险回归模型
这种模型是通过Cox回归分析方法分析危险因素对生存时间的影响,并建立生存时间与多个危险因素之间的定量关系的模型。该方法对于数据分布没有要求,变量之间必须满足独立性假设,是一种半参数模型,适用于前瞻性队列研究设计。表1汇总了近5年通过Cox比例回归分析方法建立的主要CVD风险预测模型。早前开发的模型主要来源于欧美发达国家,预测因子主要为年龄、性别、高血压、高血脂、糖尿病、家族史等CVD的传统危险因素。例如Assign评分、QRISK(Q 风险指数)1、2、世界卫生组织/国际高血压学会CVD风险预测图等,使用评分表、列线图、网页计算器等形式进行呈现,在开发模型的人群队列中的预测效能指标(如AUC、灵敏度、特异度、准确性等)以及校准后均表现良好。但考虑到不同种族、国家之间的数据和实施方面的差异,这些模型并不能在所有人群内广泛适用,近年来在资源受限地区的中低收入国家预测模型的开发也逐渐引起了重视。
2.1.2 Logistic回归模型
Logistic回归用最小二乘法计算出自变量和因变量间相应的β值和OR 值来建立函数方程,是一个二分类模型。早在20世纪60年代,美国就运用logistic回归分析成功开发出Framingham 冠心病风险评估模型。近年来,logsitic回归模型也被广泛应用于CVD风险预测,常用来与其他预测模型进行评估对比。2022年Su等的回顾性研究建立了基于一般人群的CVD预测模型,比较logistic回归模型和随机森林模型的AUC,其中logsitic回归模型纳入年龄、体重指数、总胆固醇和舒张压等重要因素,模型的AUC为0.843(95%CI0.808~0.877),还提供了影响因素的相对风险。
2.2 机器学习技术模型
机器学习是一种在医学研究中用于自动化分析数据和建模的流行方法,其优点是减少了变量选择、非参数和非线性相互作用解释(包括在多次输入中引入的数据缺失)的时间消耗。在传统建模方法可能无法执行的情况下,机器学习可集成和解释更复杂的数据,如医疗保健数据、影像学数据、生物标志物等新型危险因素。表2汇总了基于机器学习方法构建的一般人群CVD风险预测模型。
2.2.1 随机森林(random forest,RF)
通过随机采样和随机选择来选择特征集,根据不同层级的特征构建多个决策树,是一种高度灵活的基于自助聚集(bagging)的集成学习模型机器学习算法。近年来,随机森林方法也被应用于构建 CVD风险预测模型。Ambale-Venkatesh等的研究纳入了美国多中心的6814名参与者,从影像学和非侵入性检查、问卷调查和生物标志物组合中获得了735个变量,考虑成本、适当性、易用性和测量的可重复性,使用RF技术来确定前20个预测因子,RF技术的表现优于经典的美国心脏协会ASCVD风险评分,预 测[AUC=0.7准确性更高3,BS(Brier分数)=0.11]。RF是一种有效的机器学习方法,适用于在具有大量表型数据集的人群中进行心血管事件预测和危险分层,但还需要在其他人群中进行验证。Li等使用机器学习方法和患者电子病历数据集构建了 CVD风险预测模型,不仅包括了变量的横截面特征,还有生命统计数据和实验室计算得出的纵向特征,其中随机森林技术的风险计算器产生了最佳的预测性能,检测90%的 ASCVD阳性病例仅需要筛查43%的患者,而PCEs风险计算器需要筛查69%的患者,该模型的短期风险评估能力能够改善临床评估和加强预防性治疗的早期干预,还可减少进一步诊断测试的需求。
2.2.2 支持向量机(support vector machine,SVM)
SVM是通过将输入数据转换为更高维空间来工作,之后再允许在单个平面对两类数据进行归类的一种机器学习分类方法。Kakadiaris等基于SVM构建的模型使用与美国心脏病学会/美国心脏协会风险计算器相同的9个传统风险因素(年龄、性别、种族、总胆固醇、HDL-C、收缩压、高血压治疗、糖尿病和吸烟),用过采样技术来最大化机器学习训练,达到更高的预测准确性,在外部测试中进一步验证该风险模型,但还需引入更多数据,特别是对于数周或数月的短期CVD风险预测。此外,英国Pujadas等的研究证明,心血管磁共振影像(cardiovascular magnetic renance,CMR)组学预测CVD价值,该研究收集每个与者的CMR参指数、血管危险因素和CMR图像。基于SVM分层方法构建的模型对心力衰竭结局获得最预测效果,心肌梗死和脑卒中事件的预测改善略小,佳但该模型还未进行外部验证,可能存在残留混杂风险。
2.2.3 梯 度 增 强 机 (gradient boosting machine,GBM)
GBM是通过梯度提升的方式不断优化参数,从而达到局部最优解,向着减小残差的方向收敛得到数据分类或回归模型的方法。目前,不少研究将GBM运用于构建CVD风险预测模型中。VanRosendael等基于GBM整合临床和影像学数据来构建模型,纳入8844例患者(平均年龄58.0岁,58为%男性),在平均4.6年的随访时间里,发生609个CVD事件(6.9%),结果显示,包含冠状动脉CT血造影的1管6段冠状动脉树信息的机器学习方法与其他方法相比,具有更高的预后准确性。该方法可以整合无限数量的输入变量,不需要预先假设因果因素,也不会忽略预后较弱变量之间的相互作用,最大限度地利用斑块信息,能够显著区分结局事件。Chun等评估了2004—2008年从中国10个地区招募的503842名成年人,纳入社会人口因素、饮食、病史、身体活动和身体数据变量,根据个体水平特征选择性地应用梯度增强树和Cox集成模型,在识别脑卒中高危个体方面取得了最佳的准确性、灵敏度、特异度、判别和校准性能,提供了超出当前临床实践的增量收益,在临床中采用机器学习的风险计算器得到充分认可。
2.2.4 深度学习
主要是学习样本数据的内在规通过组合低层的数据特征形成更加抽象的高层特律,征,同时对局部细微的特征更敏感,是一种受生物神经系统工作方式启发而构造出的数学模型。将深度学习方法应用于构建CVD风险预测模型正在成为研究热点。深度学习算法很适用于提取一些超出人类感知或理解的特征,如感知的年龄、面部肥胖和形状等。近年来,Lin等的多中心横断面研究招募接受冠状动脉造影或CT血管造影的5796例患者,并随机分为训练组(90%)和验证组(10%),通过深度卷积神经网络从患者面部照片中开发CVD预测风险模型,证明基于人脸照片的深度学习算法用于CVD风险评估的可行性,但还需改进和验证算法,且有望开发一个自我报告移动应用程序,在门诊进行冠心病预检概率评估或社区冠心病筛查。Johri等首次基于深度学习多类算法融合颈动脉超声和相应冠状动脉造影来预测CVD风险,共用39个协变量,分为3组,即基础变量(年龄、性别、体重指数、吸烟、高血压、收缩压和舒张压)、实验室检测指标(高脂血症、糖化血红蛋白和估算的肾小球滤过率)和颈动脉超声图像表型(最大斑块高度、斑块总面积和斑块内新生血管),观察到基于深度学习的算法性能优于基于机器学习的分类器。该深度学习神经网络模型用于涉及时间序列预测和处理任务,预测性能更高,速度更快(<1s),但之后还需进一步扩展该模型,如通过基于双向深度学习分类器及用跨模态进行验证。表3总结了不同模型构建方法的适用情况和优缺点。
综上所述,在CVD风险预测中,纳入风险因素和进行模型构建是重要的两个部分。目前,流行病学研究显示许多新型风险因素与CVD相关,在接下来CVD风险预测模型的构建中可以利用更多信息进评估分析,比如临床信息、影像数据以及生物标志行物等。与经典建模方法相比,机器学习在预测CVD方面可能具有一些增量效用,并且更适合复杂的多维数据源,是未来发展的方向。具体地说,进一步构建更可靠的CVD风险预测模型,可以帮助医生筛查出高风险患者,从而制定个性化治疗和健康管理方案。
参考文献:略
作者:傅桑娅 李正昕 温清 陆瑶 袁洪 蔡菁菁
单位:中南大学湘雅三医院
来源:《中华高血压杂志(中英文)》
声明:
1.本网站所有内容,凡是注明 “来源:心脏康复网”的文字、图片和音视频资料,授权转载时须请注明“来源:心脏康复网”。
2.本网所有转载文章系出于学术分享的目的,版权归原作者所有。如有侵权,请及时联系我们更改或删除。