人工智能在医学领域被过度炒作
我们每天都在使用依赖人工智能(AI)的工具,其中像Alexa和Siri这样的语音助手是最常见的。这些消费产品表现尚可——比如Siri能听懂我们说的大部分内容——但远非完美。我们接受它们的局限性,并调整使用方式,直到它们给出正确答案,或者我们放弃使用。毕竟,Siri或Alexa误解用户请求的后果通常很轻微。然而,支持医生临床决策的人工智能模型的错误可能导致生死攸关的后果。因此,在部署这些模型之前,理解它们的效果非常关键。目前关于这项技术的报道往往过于乐观地描绘了其准确性,有时甚至被媒体渲染成耸人听闻的新闻。媒体中充斥着关于算法可以以高达74%的准确率诊断早期阿尔茨海默病,或者比临床医生更准确的讨论。详细描述这些进展的科学论文可能会成为新公司、新投资和研究方向的基石,以及医院系统的大规模实施基础。但在大多数情况下,这项技术还没有准备好投入应用。原因如下:当研究人员向人工智能模型输入数据时,他们期望模型会变得更为准确,至少不会变得更差。然而,我们的研究以及他人的研究显示情况恰好相反,即已发表模型中报告的准确性会随着数据集规模的扩大而下降。造成这种反直觉现象的原因在于科学家如何估算和报告模型的准确性。按照最佳实践,研究人员会使用数据集的一部分来训练AI模型,将剩余部分作为“封存数据”。然后,他们使用这些封存数据来测试模型的准确性。例如,假设一个AI程序正在开发中,用于通过分析说话方式来区分患有痴呆症的人和没有痴呆症的人。该模型使用包含语音样本和痴呆症诊断标签的训练数据,以预测某人是否患有痴呆症。然后,它会用类似类型的封存数据来测试,从而估计其准确性。这种准确性的估计会在学术论文中进行报告;封存数据上的准确率越高,科学家们就越认为该算法表现越好。那么,为什么研究中会发现,报告的准确性反而随着数据集规模的增加而下降?理想情况下,封存数据在模型完成并固定之前,研究人员是看不到的。然而,科学家可能会无意中“窥视”这些数据,并不断修改模型,直到其达到高准确性,这种现象被称为“数据泄露”。通过使用封存数据修改模型并再次用其测试,研究人员几乎可以确保模型能正确预测封存数据,从而高估模型的真实准确性。相反,他们需要使用新的数据集进行测试,以验证该模型是否真正具备学习能力,并能对较为陌生的数据作出正确诊断。尽管这些过于乐观的准确性估计被发表在科学文献中,但表现不佳的模型则被塞进象征性的“抽屉”中,其他研究人员再也看不到;或者,即使它们被提交发表,也更可能被拒绝。数据泄露和发表偏倚对在小数据集上训练和评估的模型影响特别大。也就是说,使用小数据集训练的模型更有可能报告出被高估的准确性;因此我们在科学文献中看到一种奇怪的趋势,即使用小数据集训练的模型报告的准确性往往比使用大数据集训练的模型更高。我们可以通过在模型验证和结果报告方面采取更为严格的方式,来防止这些问题。在确定人工智能模型的开发在特定应用中是合乎道德的之后,算法设计者首先应提出的问题是:“我们是否有足够的数据来建模像人类健康这样复杂的结构?”如果答案是肯定的,科学家们应花费更多的时间在模型的可靠评估上,而不是一味追求模型的“准确性”。模型的可靠验证始于确保我们拥有具有代表性的数据。人工智能模型开发中最困难的问题是训练和测试数据本身的设计。虽然消费类人工智能公司可以灵活地获取数据,但临床人工智能模型由于涉及高风险,需要更加谨慎。算法设计者应定期质疑用于训练模型的数据的规模和构成,以确保这些数据能代表该病症的各种表现形式和用户的人口统计特征。所有数据集在某种程度上都不完美。研究人员应努力了解用于训练和评估模型的数据的局限性,以及这些局限性对模型性能的潜在影响。不幸的是,可靠验证临床人工智能模型并没有万能的解决方案。每种工具和每种临床人群都不同。要想制定出充分考虑现实情况的令人满意的验证方案,必须在设计过程中早期就让临床医生和患者参与进来,并听取食品药品监督管理局等利益相关方的意见。更广泛的讨论更可能确保训练数据集具有代表性;确认模型性能的参数具有相关性;以及人工智能向临床医生提供的信息是适当的。我们从临床研究中出现的可重复性危机中可以汲取经验教训,当时提出的策略包括研究的预注册和以患者为中心,以提高透明度和建立信任。同样,对于临床应用中的人工智能模型设计,采用社会技术方法认识到,构建值得信赖和负责任的人工智能模型不仅仅是一个技术问题。它需要对相关临床领域有深入的了解,认识到这些模型存在于更广泛的系统中,并理解如果模型在部署后性能下降可能带来的潜在危害。没有这种整体视角,人工智能的炒作将继续下去。这是不幸的,因为这项技术确实有潜力改善临床结果,并将医疗服务延伸到被忽视的社区。采用更全面的方法来开发和测试临床人工智能模型,将导致关于这些模型能实现什么和其局限性的更细致的讨论。我们相信,这最终将使这项技术实现其全部潜力,并让人们从中受益。作者感谢Gautam Dasarathy、Pouria Saidi和Shira Hahn就本文主题进行的启发性讨论。他们帮助阐明了文章中讨论的部分观点。这是一篇观点和分析文章,作者表达的观点不一定代表《科学美国人》的观点。
查看全文
作者最近更新
-
我们进化的历史可以教会我们人工智能的未来scientific2023-11-11
-
“ChatGPT检测器”以前所未有的准确率识别人工智能生成的论文scientific2023-11-11
-
人工智能需要规则,但谁将拥有制定规则的权力?scientific2023-11-07
评论0条评论