分类
人工智能 医学专业

How to Read Articles That Use Machine Learning

JAMA原文链接

摘要

近年来,许多新的临床诊断工具都是利用复杂的机器学习方法开发出来的。无论诊断工具是如何导出的,都必须通过导出、验证和建立工具的临床有效性3个步骤来评估。基于机器学习的工具还应该评估所使用的机器学习模型的类型及其对输入数据类型和数据集大小的适合性。机器学习模型一般也有额外的预设,称为超参数,必须在独立于验证集的数据集上进行调整。在验证集上,评估模型的结果被称为参考标准。必须对参考标准的严格性进行评估,例如对照普遍接受的金标准或专家评分。

临床应用场景

你是一家大型多医院医疗系统的首席医疗官。该组织的其中一个医务人员委员会审阅了美国眼科学院的指南,建议对所有成年糖尿病患者每年进行糖尿病视网膜病变筛查。您确定有合理的证据支持这一建议。糖尿病患者容易发生视网膜病变或黄斑水肿,这些疾病可能在出现任何症状之前就已经发展到晚期。通过筛查,可以在疾病的早期,即视力受到损害之前,用抗血管内皮生长因子(anti-VEGF)药物或激光光凝治疗这些疾病。

尽管有筛查的好处,但贵机构获得眼科护理的机会非常有限。您还发现了一篇文章,表明在类似于贵机构的医疗系统中,使用基于初级保健诊所的自动化系统进行这种筛查,对糖尿病视网膜病变筛查是有效的。在那篇研究中,在基层医疗诊所获得非扩张的数字视网膜图像,并由人工智能软件自动分析。这个系统是专有的,你不知道它的有效性、可靠性和有效性如何,也不知道它的有效性、可靠性和有效性如何。您在网上进行搜索,发现有几个自动化系统可以筛查糖尿病视网膜病变。您还发现,目前认为基于机器学习方法的系统,即卷积神经网络(CNNs)似乎最有希望在临床实践中检测出糖尿病视网膜病变,因为这些系统具有管理大量信息的能力,灵敏度高,特异性强。

通过搜索PubMed,可以发现一些文章证明了自动化系统检测眼病的性能特点。在一篇JAMA文章中,展示了利用现代CNNs的机器学习检测糖尿病视网膜病变的能力,在另一篇文章中,开发了一个基于CNN的系统,并使用独立样本进行了验证。第三篇文章描述了在临床中使用基于CNN的系统。

为了评估这些文献,您使用报告诊断测试结果的文章评估框架(《医学文献用户指南》)(方框1),但您不确定使用机器学习开发的诊断工具是否与其他类型的诊断测试不同。

方框1 评估和应用诊断性试验研究的结果
研究的结果是否有效?
    主要指南
        是否与参考标准进行了独立的、盲法的比较?
        患者样本是否包括了临床实践中应用该诊断测试的患者的适当范围?
        是否有一个完全独立的验证组?
    次要指南
        所评价的试验结果是否影响了执行参考标准的决定?
        是否对执行试验的方法作了足够详细的描述,以便于复制?
结果是什么?
    是否提供了试验结果的似然率、敏感性和特异性或计算所需的数据?
这些结果是否有助于我对病人的护理?
    检验结果的可重复性及其解释在我的机构中是否令人满意?
    检测结果是否适用于我的病人?
    结果是否会改变我的管理方式?
    检验的结果是否会使患者的病情得到改善?

 本方框内的信息基于Jaeschke等人的文章。

本文介绍了机器学习的概述以及如何评估已发表的描述使用基于机器学习工具建立医学诊断的文献。

介绍

关于人工智能、机器学习或深度学习的文献,据说可以重现人类在临床任务中的表现(方框2),正在迅速增加。尽管用于实现这些技术的机器是复杂的,但一旦开发出一个机器学习系统,该系统应该使用类似的规则来验证任何旨在帮助临床医生决策的系统。一旦得出一个模型,就应该对其进行验证,并评估其在真实世界环境中的临床效果。

方框2 与机器学习方法相关的一般术语词汇表
    特征(Feature):特征是机器学习模型的输入变量。例如,在开发预测中风风险的模型时,特征可能是患者的身高或体重。特征可以在输入到模型之前进行处理,例如将身高和体重合并为体质指数。对于图像而言,在开发面部识别机器学习系统时,特征可能是图像的某些组份,如眼睛或鼻子等。
    超参数(Hyperparameter):超参数是指在模型训练前就已经建立的参数,在训练过程中保持固定不变。超参数一般会影响到训练过程中学习的参数,对最终的精度影响很大。机器学习中的难点之一就是确定能优化模型拟合的超参数集。
    标签(Label):标签标识了一个数据集合(模型输入)所代表的内容。对于一个卒中模型,它将是卒中存在或不存在。当开发一个机器学习系统来识别糖尿病视网膜病变时,每个眼底图像的标签将由解释这些图像的专家决定是存在或不存在。
    机器学习(Machine Learning)人工智能(Artificial Intelligence)深度学习(Deep Learning):人工智能是一个松散定义的概念,描述了能够执行被认为需要 “智能 “的任务的自动化系统。机器学习是指开发出具有从数据中学习并利用数据进行预测能力的系统的过程。例如,机器学习模型可以处理一个输入(如视网膜眼底照片)并产生一个输出(如对显示有增殖性糖尿病视网膜病变的图像进行分类)。深度学习是一组比较特殊的机器学习方法,它使用了许多层的算术运算。
    模型、算法(Model,Algorithm):在机器学习环境中,模型和算法经常被交替使用,指的是最终可以使用的机器学习方法。这些术语指的是机器评估输入数据并对数据中显示的内容做出判断的步骤。
    过拟合(Overfitting):过拟合是指机器学习模型被训练成对训练数据预测得太好,以至于不能泛化到新的数据集的情况。理论上,如果将大量参数输入到数学模型中,任何数据集都可以与数学模型进行拟合。即使数据和结果之间没有逻辑关系,这种过拟合也会发生。例如,用回归来确定年龄、胆固醇和性别与中风的关系,可以得到一个合理的拟合,因为这些变量中的每一个都与动脉粥样硬化的发展和随后的中风有生理上的关系。如果将这些危险因素与卒中相关的数学模型输入到模型中,即使这些参数与卒中无关,但如果输入比这些参数更多的参数,则模型的拟合度会更好。如果模型的拟合度依赖于这些额外的变量,那么得到的模型在临床上的表现可能并不好。当模型应用于不同的数据集时,其预测能力可能会失效
    参数(Parameter):参数是机器学习模型的内部值,它是根据训练数据得出的机器学习模型的内部值。例如,Logistic回归中的参数包括作为回归方程的一部分与每个输入变量相乘的权重。如果建立一个Logistic回归模型来评估评估踝关节外伤病例是否需要拍片评估,输入特征可能包括解剖学部位A和B处的骨压痛。与每一个部位相关的参数可能大于0,这提示更可能需要拍片来排除骨折。总分可能与A和B部位有或没有(1或0)的压痛与各自的参数乘积有关。参数的值在训练过程中学习,以优化现有数据和机器学习模型输出之间的拟合度。
    参考标准(Reference Standard):对于诊断测试来说,参考标准是用来比较所提出的方法的参照物。参考标准通常是一种被广泛接受的检验或诊断的金标准,但也可以是基于临床专家提供的诊断结果。
    训练(Training):调整机器学习模型中的模型参数,使模型输出与训练集中的参考标准标签最匹配的过程。
    调优(Tuning):调整模型参数的过程。调整训练模型的超参数以增加模型与调优集的拟合度的过程。在对机器学习模型进行调优时,要反复调整超参数,每次在训练集上训练一个新的机器学习模型,然后在调优集上评估该机器学习模型。最佳的超参数配置通常是能够导致最佳调优集精度的配置。

对于依赖机器学习方法来改善患者护理的临床医生来说,机器学习方法是如何工作的,以及如何推导和验证的,不应该仍然是一个谜。正如放射科医生在复习磁共振图像时了解图像采集的基本概念一样,依赖机器学习模型的临床医生同样应该了解其主要原理。本《用户指南》有3个目标,以促进临床医生对机器学习模型的理解:(1)强调正确的机器学习模型验证的重要性,并强调这一过程中相对于更传统的统计模型开发方法的验证的差异;(2)回顾机器学习的基础知识;(3)回顾机器学习模型在临床医学中应如何实施。

机器学习方法在医学上并不新鲜。一个简单的机器学习模型的例子是基于规则的系统,如Ottawa踝关节规则,它决定了在评估踝关节外伤时是否需要拍X光片。Ottawa踝关节规则使用的是决策树。复杂的机器学习方法提供了一种新的推导模型的方法,由于可用的数据量和先进的计算资源,现在已经成为可能。无论模型是如何建立的,都必须经过验证并验证其临床效果。与渥太华踝关节法则的引入和使用类似,机器学习研究需要有准确的预测,在大量的异质人群中进行验证,并证明其使用能改善临床效果——最好是在实际临床实践中的随机临床试验中进行测试。为了证明一个模型能够准确地区分一种结果和另一种结果,必须评估其辨别度和校准。鉴别度量指标衡量模型正确区分不同病症的能力,例如从视网膜图像中判断是否存在糖尿病视网膜病变。一些常用的描述性指标是灵敏度、特异性、正预测值和负预测值。通过绘制接受者操作特征曲线,可以直观地显示出使用不同分割点的灵敏度和特异性模型可能得到的全部结果。该曲线可以通过计算曲线下的面积(AUC;也称为C statistic)来概括。校准决定了模型的预测概率与实际事件概率的接近程度。校准的最佳评估方法是将实际观察到的事件频率与人群中每个十分位数的平均预测概率进行对比,并定量和定性地评估其与截距为0、斜率为1的对角线的偏差。这些和其他验证考虑出现在个体预后与诊断预测模型研究报告规范(TRIPOD)指南中。

本《用户指南》的其余部分涵盖了机器学习研究所特有的其他考虑因素,这些考虑因素作为核对清单,以2个机器学习研究和一个决策规则研究为例在eTable1中介绍。

机器学习的基础知识

机器学习方法利用数学运算来处理输入数据,得出预测结果。开发诊断工具的一种常用方法是Logistic回归(图1A)。对于每个危险因素,Logistic回归确定参数之间的关系,参数是数值(方框2)和二元临床结果,如疾病实体(如视网膜病变)的存在与否。当参数大于0时,该参数与该结果的风险增加有关,如果参数小于0,则该参数与风险降低有关。在数学上,诊断分数的计算包括将每个危险因素(例如,有无高血压的存在或0)与相应的数字参数相乘,并将结果相加,得出相关结果存在的概率。

与传统的回归技术相比,现代机器学习方法使用了更多的数学运算来更好地定义风险因素和结果之间的复杂关系。例如,在深度学习中,这些操作通常是分层进行的。每个层类似于逻辑回归,因为层通过一组参数乘以前一层的信息。第一层通常直接处理来自数据集的输入(图1B)。早期的层执行数学运算来提取简单的特征,后期(后续)的层在简单特征的基础上生成更复杂的特征,最后一层利用这些特征进行预测。例如,为了区分类别,包括人造物体和动物,前几个图层包含了简单的图案;后续图层将这些图案组合成更复杂的形状和纹理;最后一个图层学习识别建筑物和动物的部分,如鸟类和狗等(图1C)。

图1. 传统决策规则的工作方式与近期机器学习方法的比较

A、决策规则和机器学习方法都是利用数学函数来处理输入数据并做出预测。许多决策规则都是基于用代表每个风险因素的相对重要性的权数乘以风险因素。这些权重通常是通过对患者队列数据进行逻辑回归模型的训练来确定的。为了方便使用,在没有计算器的情况下,可以将这些权重转换为点得分,并在风险表中查询点得分之和。B、更复杂的机器学习方法可以利用数百万或数十亿次的乘法运算和其他数学运算来提取复杂输入数据(如图像)的描述性特征,而不是单一的乘法集。这些运算的权重或参数也是利用数据推导出来的。C、每一层都可以通过检查和可视化来对被识别的模式有一个直观的理解。虽然这个例子主要是针对图像解释的具体问题,但通过多层数学运算学习复杂特征的一般概念适用于最近的许多方法。

机器学习模型的开发

具体的机器学习方法是如何选择的?

之所以使用机器学习这个名字,是因为这些方法是在一个叫做训练的过程中从实例中学习。有2种常用的机器学习方案:监督学习和无监督学习(方框3)。在监督学习中,标记的数据(例如,由专家评分员对视网膜眼底照片进行读片,以判断是否存在糖尿病视网膜病变)被用于开发机器学习模型。在无监督学习中,数据没有明确的标签,而是通过一些数学过程对数据进行分类,以确定数据可能代表的内容。这方面的一个例子是通过将数据聚类到彼此相似的桶中来识别特征。通过使用标签,监督学习通常比无监督学习所需的数据量要少。因此,大多数最近的机器学习方法都是使用监督学习来实现人类水平的性能,能够正确地分类临床信息,如识别眼底照片中的视网膜病变。无监督学习仍然是一个活跃的研究领域,在数据集中不使用任何标签就能实现人类级性能的说法,应该仔细验证。

即使使用监督学习,所使用的方法类型也应该适合于输入数据的类型和数量。适合用于不同数据类型和数据集大小的方法列表见表2。一般来说,较新的机器学习方法(如卷积神经网络和递归神经网络)在评估复杂的数据(如医学图像或文本和大数据集等复杂的数据时,比传统的方法 [如Logistic回归或支持向量机(SVM)] 效果更好。例如,图像分类问题,确定图像中存在哪些视觉结果,如检测视网膜眼底图像中的糖尿病视网膜病变,一般需要使用人工神经网络(如深度学习)。较早的机器学习方法需要专家预先定义已知的判别特征,并主动帮助算法识别这些特征。然而,图像在计算机中被表示为由数字像素值组成的二维网格,要将相关特征描述为数字的模式是非常困难的。例如,如何用数字网格描述增生性糖尿病视网膜病变的特征性特点?通过被显示大量的例子,人工神经网络通过执行复杂的数学函数来自动学习,这些函数描述具有判别性的视觉特征,并利用这些特征的存在和程度来解释图像。相反,较简单的机器学习系统(例如,Logistic回归),使用有限的输入变量,如年龄和高血压状态等,其用于预测结果的信息较少。

最近的机器学习方法需要多少数据?

对于简单的机器学习方法,如回归技术,建议每个输入变量至少需要5到10个结果事件。开发具有数百万个参数的精确的深度学习模型时,由于通常同时使用多种正则化技术,每个参数需要的多种事件数量更少(方框3)。正则化是一种类似于曲线平滑的技术。一种正则化方法被称为参数正则化,它本质上是平滑模型的拟合,以避免对任何给定数据集的过拟合。当模型在可用参数上完美拟合数据,但与被建模的临床结果没有任何关系时,就会出现过拟合。数学建模的一个特点是,如果有足够多的参数来拟合数据,就可以实现数据与结果的完美拟合。一种称为早期停止的方法,通过在模型与数据集过拟合之前停止训练过程,可以获得与参数正则化类似的结果。另一种正则化的方法是从已经在另一个任务上训练过的深度神经网络中初始化参数。通过避免重新开始,网络可以更快地学习,并使用更少的例子。还有一种技术是通过使用人工修改的数据来增加模型的有效数据集大小,比如稍微旋转图像或改变图像的整体亮度,从而增加有效数据集的大小。人工修饰数据是教导模型的一种方式,在准确的定向或亮度并不影响视觉发现确定要识别什么的模型时。通过对多个模型的预测结果进行平均化,将多个模型的学习集成结合在一起,可以提高最终模型的准确性(方框3)。尽管这些正则化技术对现代机器学习方法很有帮助,而且确实是必不可少的,但为了达到高准确度,训练集中可能仍然需要数以万计的示例数据,如视网膜图像。

正则化是如何影响机器学习模型开发的?

大多数正则化技术,如上一节中描述的那些正则化技术,会影响机器学习模型的学习参数。然而,这些技术的使用涉及到设置额外的超参数。超参数类似于调整放大器的旋钮,以微调音频制作的低音和高音——调整旋钮会影响最终的结果。在机器学习中,如果在训练过程中控制了随机性,固定超参数的设置就可以完全确定学习参数的最终数值。然而,改变超参数和训练一个新的机器学习模型会导致学习参数的数值不同(方框3)。由于超参数对模型性能的影响很大,因此手动调优这些超参数是机器学习研究的重要组成部分。这个调优过程通常需要使用一个独立于最终验证集的调优集(通常是开发数据集的子集)。具体做法是反复尝试不同的超参数配置,在训练集上训练机器学习模型,并在调优集上评估机器学习模型。

在最近的机器学习模型的训练和调优过程中,应谨慎行事。例如,一个系统可以在训练集上调优到100%的准确率,但在验证集上可能只有随机的准确率,这说明机器学习模型在不使用调优集的时候,机器学习模型对训练数据的完全记忆。虽然临床决策规则的开发使用一个数据集进行推导,一个或多个独特的数据集进行验证(图2A;关于经常出现的不一致的数据集术语的解释,见方框3),但相比之下,机器学习通常只需要2个数据集进行开发阶段:一个训练集,从中学习参数,一个调优集,调整超参数(图2B)。当训练集和调优集较小时,分区的随机性会降低调优过程的重现性。为了提高重现性,可以在开发集内使用训练集和调优集的多个随机分区进行调优(交叉验证;方框3)。如果在描述机器学习过程的结果的出版物中既没有描述调优集,也没有描述交叉验证,读者应该评估验证集是否无意中被用于调优超参数。一个看似良性的选择是选择一个操作点,也叫阈值、分割点或截止点。例如,如果机器学习的输出高于某个截止值,那么机器学习系统要识别的特征就被认为是存在的。使用验证集的截止点选择可能隐藏了校准问题,例如,当机器学习模型使用丰富的数据集训练时,该数据集的所有数据中有一半包含感兴趣的发现。如果未经进一步修改而使用,当在只有少量患者具有机器学习系统试图识别的临床实体的普通患者群体上进行验证时,该模型可能导致假阳性输出。

图2. 决策规则与机器学习模型的开发和验证比较

A、一个决策规则通常有少量的参数(例如,5~10个),如每个风险因素的权重或点数。这些参数一般是用一个开发集推导出来的,并在1个或多个验证集上进行评估。B,虽然机器学习模型的参数类似于从数据中推导出的参数,但通常会有一些额外的超参数,如学习率等影响最终推导出的参数。这些超参数需要使用一个独立于验证集的调优集进行调优,以避免过度拟合。
方框3 与机器学习方法相关的词汇表。机器学习方案的类型、数据集名称和正则化
机器学习计划的类型
    监督学习(Supervised Learning):用输入数据及其对应的标签训练一个模型。机器学习模型试图确定输入数据和与数据相关的标签之间的关系。例子包括开发一个机器学习系统,该系统可以取一个视网膜图像(输入)并识别其是否包含视网膜病变(标签)。
    无监督学习(Unsupervised Learning):训练一个模型来识别输入数据中的模式,而不使用标签。最常见的无监督学习方法是聚类,它将数据分成类似的子组。
数据集名称
    开发集(Development Set):用于开发机器学习模型的数据集,经常进一步分为训练集和调优集。
    K-fold交叉验证(K-fold Cross-Validation):这是一种在开发集内使用多次拆分的技术,以减少拆分的随机性影响。例如,如果k=2,则将开发集平均分割成A和B,开发出两个模型:一个使用A训练并在B上进行调优,一个使用B训练并在A上进行调优,交叉验证的评价通常是使用A和B的2个性能估计值的平均值,应该使用一个独立的验证集来评价在整个开发集上训练的最终模型的性能。当k为数据集中的数据点总数时,就可以进行留一交叉验证(LOOCV)a
    训练集(Training Set):开发集的一个子集,用于开发机器学习模型,通过迭代更新模型参数来进行训练,直到模型最适合数据。
    调优集(Tuning Set):开发集的一个子集,用于调整模型的超参数。在机器学习社区中,这可能被称为验证集。在本指南中,我们将统一使用“调优”,在医学研究中,模型必须使用完全独立于训练集或调优集的数据集进行验证
    验证集(Validation Set):独立于训练集或调优集的数据集。在机器学习模型被应用于临床之前,验证集用于评估模型的性能。验证集不应被用于训练或调优机器学习模型,包括超参数或机器学习方法的选择。在机器学习界,验证集可以被称为测试集(test set)、保持集(holdout set)或评估集(evaluation set)。
正则化b
    数据增强(Data Augmentation):在训练过程中对输入数据进行计算修改,以增加有效数据集的大小,改善过拟合和最终精度。这对于应用于图像的神经网络特别有帮助,因为在图像的方向、比例/放大率、颜色、亮度、饱和度、对比度等方面都可以进行大量的修改。例如,当机器学习系统试图在面部识别系统中识别一个鼻子时,鼻子在图像中的位置或鼻子朝向哪个方向并不重要。为了帮助系统学习鼻子的样子,可以将同一图像进行多次修改,旋转不同的角度或以其他方式改变,以利于识别出与这些修改无关的判别性视觉特征。
    早期停止技术(Early Stopping):这种技术最适用于神经网络,一般通过逐步调整参数进行训练。为了帮助避免过拟合,在模型与训练集的拟合度太高之前就终止训练过程。通常情况下,在整个训练过程中对调优集的性能进行监控,在调优集性能最大化的点上提前停止。
    集成(Ensemble):将机器学习模型的多个输出进行组合,以提高最终预测的稳定性,从而提高整体性能几个百分点的技术。这可以通过开发多个机器学习模型,并在相同的输入数据下对其输出进行平均化来实现。另一种方法是在多个输入图像上运行相同的机器学习模型,可以是同一患者的多张图像(如双眼的眼底图像),也可以是人工扰动后的同一图像(如用于数据增强的图像)。
    微调、预初始化、热启动(Fine-Tuning、Preinitialization、Warm Start):该技术使用之前在另一个数据集上训练的机器学习模型来初始化所需的机器学习模型的参数。这可以帮助用较小的数据集开发准确的神经网络。虽然当另一个数据集在数据类型或预测任务方面相似时更有帮助,但使用不相关的数据集仍然会有帮助。
    参数正则化(Parameter Regularization):有助于防止参数过大(收缩),从而防止参数过拟合。其方法包括L1(也叫套索)和L2(也叫脊),以及组合(弹性网)。L1的优点是加入了特征选择,这对确定最重要的输入特征很有帮助。对于神经网络,另一种参数正则化技术称为权重衰减,它通过减去预定的权重系数来防止参数过大。

a 注意,交叉验证也可以通过将整个数据集拆分成多个开发集和验证集来使用。读者需要注意的是,这个过程评估的是许多机器学习模型的平均性能。之后,使用整个数据集训练出来的最终机器学习模型需要使用独立的数据集进行进一步的验证。

b 减少过拟合的技术,例如通过减少模型中的参数数量或避免模型与数据集的过度精确拟合。平滑噪声曲线是正则化的一个例子,在回归分析中,可以通过减少极高的参数值或将回归方程中不重要特征的参数设置为0来实现。

机器学习模型的验证

参考标准的质量是否高?

由于许多机器学习的研究旨在向临床医生展示与临床相关的任务的可比性,如阅读X光片或病理切片等,因此参考标准的质量是一个关键的考虑因素。然而,参考标准的确定往往需要主观的临床判断,这就导致了误差和误差间的变异性。这种变异性可以通过由有经验的专家小组进行评审来减少,例如,确保视网膜眼底照片由有经验的视网膜专家小组进行分级和评审。Krause等展示了参考标准质量对评价指标可靠性的影响。使用3位视网膜专家的多数票作为参考标准,他们的机器学习模型得出的误差(用1-AUC衡量)为6.6%。然而,当以3位专家的评判等级作为参考标准进行评估时,同样的机器学习模型的误差降至4.6%,误差相对减少了30%(6.6%~4.6%)。这种误差率的差异完全是由于机器学习模型与更严格的参考标准(裁决级与多数票)进行了验证。因此,一个高质量的参考标准对于精确估计模型和人的性能以支持模型性能主张尤为重要。为了避免偏差,参考标准必须独立确定——临床医生对图像的评分应该是机器学习预测不可见的。这些考虑因素在提议使用机器学习模型扩大医疗服务的研究中尤为关键;即使模型性能的微小差异也可能影响到大量患者。

研究结果是否出乎意料?

如果研究设计是高质量的,比如既没有对验证集进行训练,也没有对验证集进行调优,那么最后要考虑的是对报告的性能进行定性评估,从绝对尺度上看,是否太好,以至于不符合真实性。考虑到足够的高质量训练数据和适当的调优,最近的机器学习模型通常可以对图像进行分类,其性能与人类相当(例如,糖尿病视网膜病变的准确诊断与视网膜专家相当,对大型病理图像中的单个肿瘤的高灵敏度检测)。值得注意的是,在这些情况下,临床医生的诊断性能受制于评分者间和评分者内变异性,这是由于诸如图像解读的主观性(例如,评估病变大小或严重程度)、对许多图像或大型图像进行分级的疲劳,特别是在真实的临床场景中,评估图像的时间有限,所导致的。相比之下,机器学习方法有两大优势:在表现上的绝对一致性,没有疲劳或外部因素导致的变异性,并通过推而广之,能够详尽地审查大图像的每一部分。更普遍的是,计算机方法的数值精度可能有利于跟踪细微的变化,如病变大小随时间的变化。

当机器学习的结果看起来太好的时候,请记住,机器学习方法只能和训练集中的信息一样好。因此,机器学习方法的性能不应该超过极其谨慎和有经验的临床医生,因为他们已经得到了足够的时间来做决定。然而,由于机器不会像人那样疲劳,所以机器可以超越临床医生,因为它可以严格地检查大量的数据,并一致地得出相同的结果,而临床医生可能会忽略一些东西。

曾经有一些意想不到的说法,比如检测到以前未知的相关性,比如年龄、性别等心血管危险因素与视网膜图像结果之间的关联。在这个例子中,机器学习工具以0.97的近乎完美的AUC正确识别了患者的自我报告的性别。由于以前在视网膜眼底照片中没有报道过明确的性别特异性解剖学差异,因此这一发现特别令人惊讶。独立的研究人员在另一个人群中验证了这些结果,增加了机器学习模型的鲁棒性,使其能够在图像中发现人类以前无法识别的细微差别,从而增强了信心。当机器学习系统发现新的意想不到的关联时,应该在更多的患者队列中验证新的观察结果,以确保这些结果不是由于机器学习系统中的人工因素、混杂因素或研究设计中的缺陷造成的。

如何检测模型性能的过度乐观估计

读者应该意识到,机器学习有可能通过只在该数据集中出现的学习模式或学习参数太过特定于开发集的开发参数而对开发集进行过拟合。这种过拟合将表现为在新数据集上的准确率低,表明对其他数据集缺乏普适性。检测过拟合的一种方法是比较机器学习模型在调优集和验证集上的性能,如果两者都有报告,则可以比较机器学习模型在调优集和验证集上的性能。调优集和验证集之间的性能差距较大,可能表明调优集存在过拟合。然而,也可能与各种其他因素有关,如患者人群(例如,年龄或疾病亚型)或数据源(例如,不同的成像仪器或配置)的差异。因此,对过拟合的评估是一个涉及到技术性机器学习专业知识(例如,对调优-验证性能差距的定性评估)和临床医生格式塔(例如,对开发集和验证集之间的患者人群差异的定性评估)的评估。因此,除了对验证程序进行临床评估外,与有经验的机器学习科学家讨论机器学习开发中的任何缺陷可能会有帮助。

机器学习模型预测是否具有可重复性和可复现性

可重复性和可复现性是衡量机器学习模型性能一致性的两个关键方面。当给定相同的图像两次,给定的机器学习模型的输出应该是一致的。然而,在重复成像的情况下,尽管视觉上有相似性,但数值像素值的细微变化会改变机器学习的预测结果。在它们被用于临床之前,机器学习预测的像素值的细微变化,通过相同的成像硬件和协议拍摄的图像之间的机器学习预测应该被测量(即,重复性)。更为关键的是,机器学习对不同机构之间的成像硬件、操作者和协议的差异的预测应该被量化(即可重复性)。换句话说,在受控实验室条件之外,需要了解影响机器学习模型性能的真实世界条件。

临床实施的考虑因素

机器学习模型可以用于什么目的?

就像诊断测试可以用于分诊、筛查或诊断目的(原则上)一样,机器学习模型可以用于多种目的。例如,在诊断应用中,机器学习可能会在3个不同的阶段发挥作用:诊断前、诊断中和诊断后。在诊断前,机器学习模型可以帮助预筛查患者,只选择高危患者进行进一步评估,减少临床工作量。通过这种方式,机器学习可能会扩大医疗服务不足的患者群体,例如通过增加农村地区糖尿病患者的糖尿病视网膜病变筛查的可及性。在诊断过程中,机器学习模型可能会通过协助临床医生实时复查图像,以更快或更一致地检测出放射科、眼科或病理图像中的异常,从而提高诊断的准确性或效率。在诊断后,机器学习模型可以通过通读图像,在影响患者护理之前发现诊断错误,从而提高质量。值得注意的是,无论具体的目的是什么,临床医生的评估和机器学习的结合,都会比单独使用其中任何一种方法更有效、更准确。因此,进一步值得考虑的是如何最好地利用机器学习方法和临床医生的整合判断和经验的互补优势。

特别是,不同的用途会影响到机器学习的预测结果应该如何呈现给临床医生,这也被称为用户界面设计。例如,对于糖尿病视网膜病变的检测,显示机器学习模型用于预测的图像部分的额外信息对视网膜专家来说特别有帮助。在另一个例子中,对于前哨淋巴结活检中的转移性乳腺肿瘤的检测,显示图像中每个区域的原始预测信息太多,导致病理学家的速度变慢。相反,只突出显示最可疑的区域,大大加快了图像审查的速度。更普遍的是,即使是更简单的方面,例如是否考虑机器学习预测的概率,而不是像可发病的糖尿病视网膜病变这样的最终分类,也需要仔细思考和临床研究,以衡量对诊断变异性和患者护理的影响。

机器学习模型如何在临床实践中实现

与决策规则不同,机器学习模型在常规临床工作流程中的实施可能比较复杂。决策规则可以通过咨询风险表、计算器,甚至是脑力计算危险因素来应用,而机器学习方法则需要计算机程序。由于计算机和电子病历现在在常规临床中已经很普遍,因此对计算机的需求并不是一个障碍。然而,机器学习计算是在本地计算机上进行还是在 “云端”远程进行,对患者的隐私、工作流程的整合以及这些程序的维护都有影响,需要仔细考虑。

衡量和监控临床效果

即使机器学习模型已经在不同的研究中得到了彻底的验证,并且克服了后勤、技术和监管方面的障碍,将其整合到临床工作流程中,该系统仍然需要进一步的研究来衡量其临床有效性。临床有效性的几个方面是可以测量和跟踪的,包括患者的结果和成本。更不易察觉的是,必须评估对临床医生工作量和行为的不利影响,以避免临床医生需要对假阳性的机器学习报告作出反应而增加疲劳感,这可能会使人类对机器学习系统所发现的真正问题的反应能力减弱。此外,机器学习模型可能会导致临床医生过度依赖自动化系统,导致因机器学习过程中的缺陷所致的错误。机器学习系统的整体有用性和安全性最好是通过大型随机对照试验来评估,如评估渥太华踝关节规则的大型随机对照试验。然而,就像药品的售后监测一样,对机器学习系统的持续监测对于帮助发现因实践或患者群体的变化而可能出现的意外问题至关重要。

随着时间的推移更新机器学习模型

机器学习模型与决策规则不同,因为机器学习模型的准确性可以随着时间的推移而提高,例如糖尿病视网膜病变分级从与眼科专家媲美到与视网膜专家看齐,就是一个例子。这些改进是由于更好的机器学习方法和数据,如视网膜专家的判定标签等。此外,数据集大小的增加也大幅提高了机器学习模型的性能。因此,除了随着时间的推移更新机器学习模型,作为对实践或患者群体变化的反应,持续的数据收集将导致机器学习模型的改进,尽管回报率逐渐降低。部分原因是认识到更新提高机器学习模型的准确性可以提高医疗质量,美国食品和药物管理局正在测试医疗器械独立软件预认证(Pre-Cert)计划,以促进在适当的情况下加快审批速度。

解决临床应用场景——使用指南

机器学习是一种强大的新工具,它大大扩展了理解数据和一些临床特征之间的关系的能力,如眼底照片上的视网膜病变等。尽管机器学习极大地扩展了分析数据的能力,但其在临床实践中的实施也应遵循之前评估诊断测试的规则(方框1)。医学主任寻求评估使用机器学习诊断视网膜病变的文献,找到了2篇关于该主题的文章。第一篇文章开发并验证了一种机器学习系统,用于自动读取视网膜照片,以确定是否存在视网膜病变,在方框4和方框5中,我们使用评估诊断研究用户指南对Gulshan等人的文章进行了评估。

方框4 使用卷积神经网络检测糖尿病视网膜病变——结果评估a
偏倚的风险有多严重?
  主要指南
    是否有一个独立的、盲法的参考标准比较?
为了开发和测试一种机器学习算法,Gulshan等人与54名在美国获得执照的眼科医生或者是最后一年(研究生4年级)的眼科住院医师合作,对研究中使用的所有图像进行评分。评分员们接受了19张图像的测试,以确保他们能够熟练地阅读视网膜图像,随着研究的进行,评分员内和评分员间的一致性被确定。然后,评分员使用一个具有评分标准和图片质量标准的软件系统,如果图像的质量足够高,则评定糖尿病视网膜病变或糖尿病黄斑水肿的等级。开发集中的每张图像被评分3至7次。
    患者样本是否包括临床实践中应用该诊断检测的适当疾病谱?
Gulshan等人研究中使用的数据集来自医院和使用EyePACS系统的诊所。印度的三家眼科医院提供了图像(Aravind眼科医院、Sankara Nethralaya和Narayana Nethralaya)。在美国,使用了EyePACS系统。EyePACS诊所服务的拉丁裔人口比例较高,因此EyePACS的数据集中,西班牙裔患者的比例较高(≈55%),白人、黑人和亚裔患者各占5%至10%左右。使用了各种不同的相机系统来获得图像。该开发集包括128,175张黄斑中心图像,其中33,894张来自印度,其余的来自EyePACS站点。因此,Gulshan等人开发的视网膜病变系统可能并不能通用于所有人群,需要对非印度裔、非西班牙裔患者进行测试。
    是否有一个完全独立的验证数据集(对于机器学习预测模型是否报告了调优)?
在Gulshan等人的研究中,80%的数据用于优化机器学习算法参数,20%的数据用于调优。在分离的调优数据集中,当算法性能的曲线下面积达到峰值时,调优数据集被用来确定何时停止训练过程。最初,Gulshan等人使用了EyePACS开发集的图像子集进行验证研究。这并不是最优的,因为在任何建模研究中,几乎可以肯定一个统计模型,或者在这种情况下,通过机器学习生成的模型,将对与学习数据同一来源的数据得到一个非常好的拟合。从统计学和数学的角度来看,对来自同一人群的派生数据进行拟合,无论其如何采样,都是完全相同的过程。由于这些原因,分割样本或交叉验证方法实际上并不能反映任何模型的真实验证。因此,Gulshan等人也用一个完全独立的数据集——Messidor-2公开的眼底图像数据库来测试他们的机器学习系统。Gulshan等人使用推导过程中最可靠的分级器对验证图像进行分级。与推导过程一样,验证集中的每张图像也被多次打分(平均7次)
  次要指南
    被评价的试验结果是否影响了参考标准开展的决定?
Gulshan等人在研究中用于制定参考和验证研究的数据集的分级是独立进行的,并且是为了研究的目的而进行的,没有受到患者临床护理的任何影响。
  所描述的执行试验的方法是否足够详细,是否可以重复?
Gulshan等人所描述的获取数据集的方法以及如何分析数据集的方法被全面地描述了,可以被其他研究者重复

a 使用卷积神经网络检测糖尿病视网膜病变是基于Gulshan等人的评估。本方框内的信息基于Jaeschke等人的文章。

方框5 使用卷积神经网络检测糖尿病视网膜病变——应用结果a
结果是什么?
    是否提供了测试结果的似然率、敏感性和特异性,或者提供了计算所需的数据?
当机器学习算法被优化为高特异性时,当用EyePACS验证数据集测试时,特异性为98%,敏感性为90%。而Messidor-2验证集的敏感性为87%,特异性为99%,这说明了任何模型对完全独立的数据集进行验证的重要性。独立的验证集会有与推导数据集中包含的患者特征不同的患者,从而更真实地评估机器学习模型在实际临床实践中的表现。当对机器学习视网膜病变算法进行高灵敏度的优化,并与EyePACS验证集进行测试时,敏感性为98%,特异性为93%。对于Messidor-2验证集,敏感性为96%,特异性为94%。
该结果是否有助于我对患者的护理工作?
    检验结果的重现性及其解释在我的环境中是否能令人满意?
Gulshan等人开发了一种机器学习算法,当对高特异性进行优化后,在对法国开发的验证集进行测试时,证明该算法具有很高的敏感性和特异性。考虑到机器学习算法是从推导集和验证集中的大量图像中推导出来的,这些结果很有希望。基于大量数据,该算法应该能够一致地识别眼底照片上的视网膜病变结果。然而,当图像来自于不同的摄影系统和不同的患者群体时,算法的表现可能不如推导集和验证集中使用的图像那么好。在另一项关于独立开发的机器学习算法检测糖尿病视网膜病变的研究中,在多种族患者队列中检测视网膜病变的敏感性为91%,特异性为92%,这表明机器学习系统检测糖尿病视网膜病变可能适用于来自不同人种和种族背景的患者队列。在另一项研究中,Gulshan等人用于开发机器学习视网膜病变筛查算法的研究中,(基于印度的2家医院:Aravind眼科医院和Sankara Nethralaya),自动化视网膜病变系统的表现相当不错。与评估相同图像的视网膜专家相比,训练有素的分级人员的敏感性为73%对90%,特异性为84%对99%。Aravind眼科医院和Sankara Nethralaya的自动化糖尿病视网膜病变系统的敏感性为89%,而Sankara Nethralaya的敏感性为92%;Aravind眼科医院和Sankara Nethralaya的特异性为92%,而Sankara Nethralaya的特异性为95%。这些研究综合起来表明,当算法是在相同的患者群体中开发的,自动化糖尿病视网膜病变筛查系统可以像训练有素的评分者阅读眼底摄影图像一样有效。但是,这种算法是否能在其开发所基于的患者群体以外的其他人群中同样有效,还有待观察。
    这些结果是否适用于我的患者?
除非患者的特征与该算法开发所基于的人群相同,否则它的效果可能不如文献报道的那样好。
    这个结果会改变我的管理吗?
由于糖尿病视网膜病变自动筛查系统尚未在您所管理的人群中得到验证,因此不能断定它将改变管理方式。
    患者是否会因为检查结果而变得更好?
理论上,由于需要进行视网膜病变筛查的患者比现有的资源更多,因此实施自动化系统可以使患者受益。而目前可用的系统可能对您的患者群体并不适用,您的结论是,如果可以对您的患者进行验证,实施这样的系统可能会使他们受益。

a 使用卷积神经网络检测糖尿病视网膜病变是基于Gulshan等人的评估。本方框内的信息基于Jaeschke等人的文章。

结论

机器学习在医学上并不新鲜,在更简单的化身为临床决策规则时,机器学习已经得到了有效的应用。临床医生应该像其他任何诊断或预后工具一样,验证机器学习方法的有效性和影响。报道机器学习系统结果的研究的读者应该评估机器学习模型验证的最关键因素,例如研究设计是否通过不适当的超参数调整或低质量的参考标准过度演绎模型性能。最关键的是,机器学习模型必须在一个独立的数据集上进行验证,而不是用于训练或调优模型的数据集。最后,在评估结果是否可信的过程中,临床格式塔起着至关重要的作用:因为机器学习模型最大的优势之一是一致性和不疲劳,因此,对机器学习结果可信度的一个有用的检查是,在丰富的时间内,一个有经验的专家是否能够重现声称的准确性。如果结果大大超过了即使是这样的假设专家所能做到的,那它应该被仔细检查和验证。

发表评论

电子邮件地址不会被公开。 必填项已用*标注