目的:探索机器学习(ML)算法是否可以提高善蛛网膜下腔出血(SAH)后延迟性脑缺血(DCI)和功能预后的预测。
方法:收集入院3天内的数据,采用ML模型和标准模型(SM)预测DCI和功能预后。出院和出院3个月的功能预后采用改良Rankin量表(mRS)进行量化(预后良好(mRS)≤3和预后差(mRS≥4))。同时,临床医生前瞻性预测患者3个月的预后。回顾性分析ML、SM和临床医师的预测性能。
结果:共获得名患者DCI状态,名患者出院和名出院3个月的预后资料。临床医生前瞻性预测(一名主治医师、一名研究员和一名护士)90名受试者3个月的预后。ML模型得出的预测AUC(受试者工作曲线下面积)值,其中DCI为0.75±0.07(95%CI:0.64至0.84);出院预后为0.85±0.05(95%CI:0.75至0.92),3个月预后为0.89±0.03(95%CI:0.81至0.94)。ML在预测准确性上优于SMs,其中在DCI状态上,AUC值提高了0.2(95%CI:-0.02-0.4)。在出院预后方面,AUC值提高了0.07±0.03(95%CI:0.–0.14),在3个月预后的预测方面,AUC值提高了0.14(95%CI:0.03–0.24),并与医生在预测3个月预后的性能上一致。
结论:ML模型在预测DCI和功能预后方面明显优于SMs,并具有潜在提升SAH管理的可能性。
前言:蛛网膜下腔出血(SAH)后,迟发性脑缺血(DCI)是导致功能预后不良的最大因素。DCI发生在20-30%的SAH患者,它的特征是初次出血后4-21天内发生的神经系统恶化。早期识别DCI和预测功能预后是SAH管理的重要方面。目前,蛛网膜下腔血肿体积(用改良Fisher量表(mFS)量化)和入院时临床严重程度(用Hunt-Hess(HH)量表量化)分别是DCI和功能预后的有效预测因子。HH量表通常由入院时的神经系统检查确定,是短期和长期功能预后最广泛使用的预测指标。此外,临床医生可以根据所有可用的临床信息主观预测患者的预后。
机器学习(ML)可以从复杂的数据中学习,以发现可以提高预测的隐藏特征。它们通常需要大数据样本(称为“大数据”)。现在,这些样本的获取变得更容易,从而使得在临床广泛应用。ML可以客观地从数百个变量和样本中学习以提供推论。电子病历(EMR)是存档数据(包括实验室数据和生命体征)的丰富存储库,主要用于SAH患者的日常管理。先前的研究表明,一些EMR参数包括白细胞计数(WBC、中性粒细胞计数、血小板、红细胞)、凝血和纤溶指标、血清葡萄糖和血钠以及生命体征(包括ECG和BP),都与DCI和功能预后有轻微或高度相关。我们假设ML模型可以学习这些关联并准确预测DCI和功能预后,并优于标准模型。我们的目标是采用EMR中的标准临床和实验室参数来开发可以预测DCI和功能预后的ML模型。此外,我们将ML模型的性能与基于临床医生的预测在预测3个月预后方面的性能进行了比较。
方法:
研究人群、入选标准和临床终点:我们对年7月至年8月医院神经科学重症监护室的SAH患者的前瞻性队列进行了回顾性分析。创伤性SAH患者以及入院后3天内死亡或出院的SAH患者不采用ML模型预测DCI。入院后5天内死亡的患者不采用ML模型预测功能预后。没有EMR数据的SAH患者也被排除在外。入院时的临床严重程度采用Hunt-Hess量表(补充:Hunt-Hess量表)进行量化。入院CT时的血肿体积采用改良Fisher量表(补充:改良Fisher量表)进行量化。出院时和3个月时的功能预后采用改良Rankin量表(mRS)进行量化(补充:功能预后评估)。DCI状态使用已有的定义确定(补充:DCI评估)。临床医生预测小组的成员(一名委员会认证的神经重症主治医师、一名神经重症护士和一名神经重症研究员)在入院后第1至3天被要求前瞻性预测16个月内SAH患者的3个月mRS(补充:临床医生预测)。
标准方案批准、登记和患者知情同意:我们收到了参与研究的所有患者(或患者监护人)的书面知情同意书。我们获得了机构IRB的批准,本研究根据机构IRB批准的方案下进行。
数据提取和插补:收集从入院当天到入院后第3天的每个24小时内几个实验室和生命参数的值(补充:最初提取的EMR参数列表)。本实验仅纳入了大多数受试者能定期获得的参数。如果每天有多个参数记录可用(如生命体征),则每个参数的最大值、最小值、平均值和标准偏差计算为每天的单独变量。由于大多数实验室通常每天进行一次或两次,因此排除了每天实验室值的标准偏差。缺失的数据被程序化插补(补充:数据准备和插补)。原始EMR数据存储在MySQL数据库(MySQL8.0)中,并通过SQL语言进行查询。数据准备和插补使用Python编程语言(v3.6)进行。
机器学习方法:我们首先使用文献中验证的变量(标准模型)建立了一个基线临床模型,用于预测DCI和功能预后。接下来,我们将ML模型与标准模型进行比较。预测DCI的标准模型是包括年龄和修正的Fisher量表的逻辑回归(LR)模型。mRS被分为两种反应——“预后良好”(mRS)≤3)还有“预后差”(mRS≥4)-以训练预测功能预后的标准和ML模型。预测功能预后的标准模型是包括年龄和HH量表的LR模型。由于存在多个候选ML模型,我们试探性地研究了性能和复杂性之间权衡的模型。研究的模型包括支持向量机、随机森林、梯度增强和人工神经网络(ANN)。数据集分为“训练”和“测试”组(补充:训练/测试分割协议的数据分割)。采用分层10倍交叉验证(CV)方法在训练集上训练ML模型并调整模型参数。选择在训练集上具有最佳平均AUC的模型(使用10倍CV),并评估和报告其在测试集上的性能。ML模型是使用Python编程语言(v3.6)中提供的“scikitlearn”和“tensorflow”库开发的。
统计方法:本研究中的性能指标为灵敏度、特异性和工作曲线下面积(AUROC/AUC)(补充数字内容-表S1)。比较ML模型、标准模型和临床医生对测试集的预测性能。训练和测试组是随机分层的,其特征如表1所示。ROC曲线使用DeLongtest进行统计比较。为了对ROC曲线的预测进行二分,选择了对应于最大Youden指数的最佳截止值。McNemar检验用于比较标准模型、ML模型和临床医生的二元预测。使用python(v3.6)和MedCalc(v18.11.3)软件进行ML开发和统计分析。图1A-E给出了该方法的完整概述。
数据可用性:本研究中使用的所有匿名数据在公共领域中不可用,但主要研究者可能会对数据请求进行考虑。
结果
人口统计学和数据分割方法:在研究期间,总共有名患者同意参与。其中人(64%)为女性。这些患者的基线特征见补充数据内容-表S2。平均年龄为54岁(四分位间距,IQR:45-63)。名受试者(60%)有高血压病史,60名(17%)有高脂血症病史,44名(12%)有糖尿病病史。入院CT检查时,名(66%)受试者的HH中位数为3(IQR:2-3),mFS中位数为3(IQR:3-3),并观察到脑室内出血(IVH)。88(21%)的受试者出现DCI。出院时中位mRS为3(IQR:1-4),3个月中位mRS为1(IQR:0-4)。
名受试者的数据可用于DCI预测模型的开发,他们被随机分为训练组(80%,~名受试者)和测试组(20%,~80名受试者)。名受试者的数据可用于开发出院mRS预测模型,他们被随机分为训练组(80%,~名受试者)和测试组(20%,~79名受试者)(表1)。名受试者的数据可用于3个月预后预测模型的开发,其中90名受试者的临床医生预测可用。对于3个月的预后,这90名具有临床医生预测数据的受试者被用作“测试”集。其余数据(名受试者)用作开发ML模型和标准模型的训练集(图1E)。讨论了每种模型的可用受试者数量的基本原理(见补充:“受试者和可变可用性”)。
ML和标准模型在DCI和出院预后中的表现:在所测试的ML模型中,ANN表现良好。关于“训练集”ANN模型的10倍CVAUC为0.78±0.16(补充:“DCI模型”)。在“测试集”上评估ML模型和标准模型,ML模型的AUC高于标准模型(0.75±0.07,95%CI:[0.64至0.84]vs0.56±0.07,95%CI:[0.44至0.66],p=0.08,图2A)。ML模型和标准模型在最佳截止值(敏感性:0.82vs0.79,特异性:0.72vs0.25)上有显著差异(p0.01,McNemar检验,表2)。
对于出院预后,ML模型(见补充:模型参数功能预后)的AUC显著高于标准模型(0.85±0.05,95%CI:[0.75至0.92]vs0.78±0.06,95%CI:[0.67至0.86]),提高了0.07[95%CI:-0.-0.14]。ML模型的评估(在最佳阈值下)与标准模型显著不同(敏感性:0.75vs0.58,特异性:0.87vs0.90,p0.05,McNemar检验)。表现最佳的ML模型使用了EMR变量和一个由人类主观性得出的参数—HH分数的组合。仅使用EMR变量(不包括HH评分)的ML模型也计算了其AUC(0.81±0.05,95%CI:0.71至0.89)(图2C)。
DCI和出院预后模型分析:在开发ML模型后,我们试图解释ML模型。预测DCI的最高的AUC的ML模型使用了来自EMR的31个衍生变量。变量包括年龄和实验室测试结果,如血红蛋白、钠、WBC、血小板和肌酐(图2B)。由于ANN模型难以解释,我们使用梯度增强(GB)和随机森林(RF)模型进行分析;这两种基于树的模型解释起来相对不那么困难。GB模型仅使用这31个变量预测DCI,并根据相对重要性对这些变量进行排序。排名前20%的变量包括钠、WBC和中性粒细胞。用于出院mRS预测的ML模型包括8个衍生变量,包括葡萄糖、分段中性粒细胞水平、收缩压变化、WBC、红细胞压积和淋巴细胞(图2D)。该模型还包括年龄和HH评分。通过结合EMR变量和临床医生得出的HH评分,获得了最佳的ML模型。
ML、标准模型和临床医生预测3个月预后的表现:先前开发用于预测出院预后的两个ML模型(一个模型仅包括EMR,另一个模型同时包括EMR和HH评分)都被重新训练以预测3个月的预后。对于3个月的预后预测,仅包含EMR变量的ML模型的AUC(0.89±0.03,95%CI:0.8至0.94)和同时包含EMR变量和HH评分的ML模型的AUC(0.±0.03,95%CI:0.81至0.94)显著高于标准模型的AUC(p0.05)(0.75±0.06,95%CI:0.65至0.83),包含EMR和HH变量的ML模型的AUC比标准模型的AUC(图3)提高了0.13±0.05(95%CI:0.至0.24)。
在临床团队成员中,主治医师(敏感性为0.88,特异性为0.95)优于护士(0.86和0.85)和研究员(0.81和0.75)。ML模型的敏感性和特异性(在最佳阈值下)是0.91和0.75。主治医师的预测值优于ML模型,但差异无统计学意义(p0.05,McNemar检验)。
讨论
本研究有三个主要发现。ML模型比标准模型更好地预测DCI和功能预后。他们在预测3个月预后方面与医生的预测在性能上较一致。包含临床医生视角变量的ML模型略优于排除这些变量的ML模型。
DCI预测:与SM相比,ML预测DCI的AUC提高36%。除mFS外,ML模型使用的变量通常是可用,从而更容易集成到现有的EMR系统中。ML模型中预测DCI确定的变量包括钠水平、血红蛋白、WBC和分段中性粒细胞,这些都与DCI的病理生理机制相关。例如,钠失衡可归因于SAH释放的与DCI相关的利钠肽。WBCs-ML模型可归因于SAH后的炎症反应,该反应已被证明与不良预后和DCI相关。动脉瘤壁上淋巴细胞浸润与脑血管痉挛(DCI的原因之一)(CV)相关,表明CV/DCI和WBC水平之间存在直接机制。血清中性粒细胞和红系异常(包括血红蛋白和红细胞压积水平)与DCI有关。ANN/ML可能是由于其能够利用这些变量的组合预测值有较高的AUC。DCI相关文献中已识别变量的先前含义增加了模型生理合理性的可信度。值得注意的是,一些使用连续的生理数据的ML模型,预测DCI的AUC为0.77。
与传统方法中的“还原论”方法相反,ML模型可以进行“系统”推理。除了mFS外,在报告的几个DCI风险因素中,没有一个转化为实用工具。例如,WBC阈值为12.1X/L的AUC为0.63(仅略好于mFS的AUC~0.57),因此不具有普遍性。已经提出了使用不同模式预测DCI的其他方法。基于cEEG的方法在发病前24小时预测DCI,具有较高的敏感性和特异性。经颅多普勒(TCD)、CT血管造影/CT灌注成像已用于DCI的预测,但有局限性。TCD只能在SAH的第8天达到合理的敏感性和特异性,这对于早期风险分层和干预来说不及时。CT血管造影或CT灌注需要碘对比剂注射,患者需要接受额外的辐射,在常规临床实践中使用的缺乏敏感性和特异性。重要的是,这些方法是脑血管狭窄(脑血管痉挛)的替代标志物,而脑血管痉挛只是DCI发生的众多重要过程之一。与EEG和TCD不同,ML方法仅使用常规临床变量(已作为标准监护的一部分),不需要使用昂贵仪器(如EEG和TCD)。ML模型的输出(仅为0-1之间的概率风险分数)在大多数情况下易于转换,因为不需要训练有素的技术人员具有脑电图和TCD专业知识。ML使用数百个变量。ML增强了“精确医学”范式,还可以评估患者特定的风险。为了验证ML模型的高AUC是否归因于模型的复杂性(而不仅仅是变量的选择),使用31个变量对逻辑回归模型进行测试,并在测试组评估其性能。该模型的AUC为0.65,比ML模型的AUC小13%,这意味着ML的高AUC可归因于其复杂的模型架构。
功能预后:在预测出院和3个月功能预后方面,ML模型的AUC分别比标准模型高9%和18%,且两个模型仅包含8个变量(其中只有一个–HH评分–通过医生检查得出)。即使是仅依赖EMR变量(不考虑HH评分)的ML模型,其AUC也比标准模型分别增加了4%和18%。ML模型中的变量包括葡萄糖、WBC和收缩压的变化(都是全身炎症的标志物),它们与SAH的不良预后相关。SAH后糖代谢受损很常见,这可能是由于代谢紊乱并可以通过交感去甲肾上腺素能神经抑制胰岛素释放加剧神经损伤,并导致不良后果。早期全身炎症过程与不良预后相关,ML模型可能利用与这些过程相关的变量的组合预测值来预测高AUC的预后。
与临床医生预测的比较:在临床医生中,与护士和研究员相比,主治医生预测预后的敏感性和特异性得分最高(0.88和0.95)(表2)。ML模型的敏感性和特异性(0.91和0.64)与医生的评估没有显著差异。医生在预测3个月预后方面表现出的敏感性和高度特异性突出了影响人类决策过程的因素的重要性,这些因素难以客观确定。与入院后3天内收集的EMR变量相比,这些因素对长期预后的影响可能更大。
对比临床医生和ML预测的差异很重要。医生认为在他们在决策时,要考虑比限制在临床和实验室参数在入院前三天的ML模型更多的信息。所开发的ML模型对患者先前存在的功能状态的任何信息都是不了解的。然而,临床医生的评估可以借助于患者的既往病史和检查。他们拥有多年治疗患者的直觉,通过这种直觉,他们有了预测预后的能力(尽管是主观的)。即使是经验丰富的医生也无法同时处理多个变量。然而,实际预后/即将发生的并发症(如DCI)可能取决于数百个变量。ML可以客观学习并可以处理多个变量。在ML模型中,由于经验、医院方案,医生之间的差异也不存在或最小化。时间压力、认知偏差、疲劳、信息负荷和行为确认效应等其他问题在ML中不太受