上海儿童医学中心
编者按围术期风险预测模型应准确并需局部校准,但也要为临床所接纳。这项研究采用随时可用的电子病历数据来评估机器学习,以改善风险预测。整个围术期患者情况变化都能纳入其中,以更新风险评估。一小部分存在高危因素的人群构成了发生外科并发症患者中的大部分。许多研究表明早期干预有利于减少甚至预防围手术期并发症的发生。在当前基于价值的医疗环境下,找到切实的方法迅速识别存在高危因素的患者,使其能够从劳动或费用密集型干预中获益至关重要。遗憾的是,当前诸多的风险分层方法,或缺乏患者身体状况分级的准确性;或需要经验丰富的临床医生查阅每个患者的病历并评估分级。当前,患者术前风险评分通常归为两组体系。第一组体系利用疾病和相关健康问题的国际统计分类(InternationalStatisticalClassificationofDiseasesandRelatedHealthProblems,ICD)编码以构建风险模型。遗憾的是,ICD编码直到患者出院后才能得到。虽然这些评分在总体水平上匹配性较高,但由于依赖于术前无法获得的数据,故反复证明在个体患者水平上缺乏准确性。第二组模型则依赖于临床医生的主观判断,如单独使用ASA身体状况分级(ASA分级)或将ASA分级纳入其他模型(如美国国家外科质量改进计划[NSQIP]手术风险计算器)以进行风险评估。虽然这些评分与ICD代码相比往往准确性更高,但因为在计算之前,需要经验丰富的临床医生进行人工查阅患儿的病历,故无法实现完全自动化。近年来,有研究尝试对医疗数据采用机器学习技术,以提高各种模型的预测能力。这些方法在利用日益复杂的数据方面突显优势,同时能够实现评分系统的完全自动化。本文中,我们假设机器学习方法仅通过分析易于获得并自动提取的术前电子医疗记录(electronicmedicalrecord,EMR)的特征参数,来预测住院患者术后死亡率。我们比较了模型特征参数与其它现有临床风险评分(ASA评分,POSPOM评分及查尔森合并症评分)结果的相关性。最后,我们旨在将此模型及先前发布的模型进行整合,以评估手术终点的住院死亡率,从而量化围手术期风险变化。方法数据来源及提取本研究的所有数据均从围手术期数据库(perioperativedatawarehouse,PDW)中提取,其属于定制的,大数据资料库,包含了自年3月起实施UCLA-EMR系统(EPIC系统,麦迪逊,威斯康星州,美国)以来在UCLA医疗中心接受手术的所有患者的资料。我们之前描述了PDW的创建过程,该过程分为两个设计阶段。简而言之,在第一阶段,从EPIC的Clarity数据库提取数据,围绕三个不同的概念建立29个表格:患者,手术操作及卫生系统接触。然后,这些数据用于填充种不同的度量标准,例如手术时间,再入院,入院ICD编码等。这项研究所有的数据都从此数据库获得。该回顾性研究同时获得伦理委员会(institutionalreviewboard,IRB)的豁免批件(IRB#16-)。模型终点的定义我们拟合分类模型来预测住院死亡率,以二分类变量指标表示。此分类资料提取自PDW。如果住院期间记录了“死亡日期”,则设置变量为已发生;如患者没有再入院记录或不存在临床死亡记录,则最终变量设置为“已过期”。因为需要考虑假阳性结果存在的可能性,使用此定义的结果标签由经验丰富的临床医生对部分患者进行验证。纳入及排除标准患者如果在年4月1日至年12月10日期间接受了全身麻醉手术操作,则纳入本研究。麻醉方式的提取来源于麻醉实施者在术后记录的麻醉后交班文书。如果个体的ASA身体状况分级为6(提示器官捐赠者),数据分析时患者尚未出院,或年龄小于18岁及大于89岁的患者修改了年龄(机构对于数据安全的严格限制),则排除在本研究之外。补充图S1展示了临床试验报告的统一标准示意图。某些患者,尤其是高危患者,在住院期间实施了一次以上手术。在这些情况下,所有符合上述条件的手术都要纳入本研究。我们进行了后续分析以确保这些纳入数据不会对整体结果产生不恰当的影响。补充附录S1展示并描述了此类分析。模型参数输入该模型通过一系列参数指标创建,包括患者基本信息,例如年龄,性别,BMI指数,血压和HR;手术前常规实验室检查结果,包括钠、钾、肌酐及血细胞计数;手术特定信息,包括手术操作编码等。根据临床医生的共识(IH,EG),总共筛选出58项术前参数(包括ASA分级)可能有助于预测患者结局。完整列表可见补充表S1。对于所有变量,仅手术前最新的数据纳入研究。为了帮助解释不同类型参数的相对预测价值,共创建了五个模型。模型1包括所有输入参数,包括ASA身体状况分级。由于ASA身体状况分级在未得到经验丰富的麻醉实施者查阅前无法完全自动化,故模型2包含除了ASA身体状况分级以外所有其它输入参数。为了克服自动化的限制,模型3包含了所有输入参数,包括ASA分级的自动替代参数。这一替代参数评分产生的详细信息见下述。模型4和5分别是模型1和3的变化模型;但是,尽管保留了实际结果的情况,但它们排除了术前实验室检查结果的时间标签(相对于入院时间)。因为从实验室结果到进行手术的间隔时间并不是患者疾病严重程度的指标,故我们排除此信息,以避免模型错误地增加此功能权重的显著性。模型性能比较为了评估当前使用的风险分层系统与我们模型性能的差异性,我们还测试了三种“基准”模型的性能:即仅包含ASA身体状况分级的模型、包POSPOM评分的模型,以及仅包含查尔森合并症评分的模型。使用具有如上这些单一特征的模型,具有产生与我们更为复杂的模型相同结果形式的效应,并可以直接比较。数据预处理数据点如果偏离均数大于4个标准差则认为是错误的异常值而被剔除。分类参数转换为指示变量,忽略第一个变量。因此,如果分类变量具有k个值,则只有k-1个值转化为指示变量,因为第k个变量成为参考值。该队列分为拟合数据集和测试数据集,选择年4月1日至年2月28日之间实施的所有手术进入拟合数据集,并且年3月1日到12月10日之间的手术进入测试数据集。将测试集中出现的所有患者从拟合数据集中剔除,以防止信息泄漏。暂时拆分队列可以使我们估计未来手术病例的模型性能。调整拟合数据参数,使均数为0,标准差为1,并使用拟合数据集均值和标准差调整测试数据。使用SoftImpute算法分别填充拟合数据集和测试数据集的缺失数据,其利用的是组内患者数据的相似特性以估算缺失值。SoftImpute算法由fancyimputePython软件包实现(版本0.2.0;Python软件基金会,Beaverton,美国俄勒冈州),最多迭代次。相比治愈患者,住院死亡人数要少得多,导致极端的类别失衡(死亡率2.01%)。为了解决这个问题,使用合成少数类过采样技术(syntheticminorityover-samplingtechnique,SMOTE)算法对拟合集进行过采样。该算法在imblearnPython软件包中实现(Python软件基金会),使用三个近邻和“baseline1”方法来创建平衡的类别分布。而测试集不采用过采样,因此保留了原始结局频数。生成ASA身体状况的替代参数虽然ASA分级是患者健康状况的有力指标,但需要临床医生通过查阅患者的病历并主观确定分级,浪费了宝贵的时间并需要临床经验。为了平衡这类评分的价值与对自动化的迫切需要,我们试图使用EMR中现成的数据生成类似的测量值,即ASA分级替代参数。最近,也有类似的研究尝试开发机器学习方法来预测ASA分级。但是,由于出现5级的频率较低,故这些方法难以区分ASA分级4到5级,并诉诸于将ASA4级和ASA5级合并或忽略ASA5级的患者。我们的工作目标不是预测ASA分级,而是要评估一种整体患者健康测量方法作为特征参数来纳入我们的模型以预测住院死亡率,从而避免临床医生花费大量的时间翻阅病历。从EMR数据中提取现存的ASA身体状况分级,我们使用与手术无关的术前特征参数拟合了梯度提升树回归模型来预测新患者的ASA分级,该模型是通过使用XGBoost软件包实现,包括0棵树,最大树深为7。我们使用五倍交叉验证以生成预测值。与实际ASA分级限于整数不同,此ASA替代值为一个连续数值,我们称其为“ASA替代分级”,以区分于实际ASA分级。该分级是患者风险的连续评分,由ASA分级监督模型中的参数学习。模型创建,拟合及测试我们评估了四种不同的分类模型:logistic回归,ElasticNetlogistic回归,随机森林和梯度提升树。Logistic回归是一种假设二元结果的统计模型,可以预测各自变量的权重组合。ElasticNetlogistic回归通过对小且稀疏参数强加权重,给线性预测模型添加额外的约束。随机森林分类器使用独立拟合决策树的集合,并根据多数投票结果决定可能性最大的参数。这种独立拟合决策树是基于一系列有关特定参数值的二分类问题对数据进行分类。如随机森林一样,梯度提升树分类器使用决策树的集合进行预测,但不是单独建立每个决策树,而是有序地创建树以使每个新树符合前一步剩余的残差。在拟合数据集中使用五倍交叉验证选取模型超参数,同一患者的手术信息被分在一组以保证其只能出现在单一拟合组或测试组,而不是同时出现在两个组。五倍交叉验证过程中,数据集被分为五个部分,其中五分之四的数据用于拟合模型,其余的五分之一作为测试集。重复执行该过程,保证每个部分仅一次用于测试集,而4次用于拟合集。交叉验证通过对多次试验的测量值进行平均,以更好地评估模型性能。使用L2惩罚及ElasticNet惩罚对Logistic回归分类进行拟合,其中alpha(正则化常数)和L1/L2混合参数使用五倍交叉验证设置。随机森林分类器使用0个估计量进行拟合,基尼不纯度作为分割标准,没有特别指定树的最大深度。梯度提升树分类器使用0个估计量进行拟合,树的最大深为5。Logistic回归和随机森林分类器通过Scikit-learn实现。梯度提升树分类器通过XGBoost软件包实现。所有性能指标都是通过Scikit-learn实施方法建立的留存测试集计算得出。我们使用预测值的区块引导生成测试集性能指标的置信区间(CIs)。由于测试集中的患者可能会经历多次手术,故他们每次手术的风险预测值是相关的。然而,一般引导过程通常随机抽样病例,并假设每个病例都是独立的,但在此假设下,相关结构就会丢失。因此,我们不是随机抽样病例,而是随机抽样患者,并将所有预测值纳入引导样本。这种区块引导过程重复执行次。我们计算每一个引导样本的性能指标;然后对这些指标进行排序,选择有序指标列表的第25和个值确定95%CI。如上所述,对于队列中每一个患者,我们将我们的方法与查尔森合并症指数评分进行比较,查尔森合并症指数评分是目前众所周知且已证实的预测术后死亡风险的方法。我们根据Quan及其同事所描述的方法更新权重。使用R语言软件包(R基金会,用于统计计算,维也纳,奥地利)对患者每次手术入院相关的所有ICD10编码计算评分。POSPOM评分是另一种值得推荐文章
热点文章