世卫组织呼吁谨慎使用生成式人工智能技术于医疗领域

techmonitor 20230518

世界卫生组织（WHO）已发出严重警告，指出在没有采取适当预防措施以避免偏见和误诊风险的情况下，不应使用人工智能，尤其是大型语言模型。这一警告是在大型科技公司宣传其大型语言人工智能模型对医疗行业带来的益处之际发布的。谷歌发布了一个专门面向医疗领域的其PaLM 2模型的版本，而OpenAI称，ChatGPT背后使用的GPT-4模型通过了一系列医学考试。公司正在探索将人工智能嵌入医疗领域，以帮助诊断和治疗（照片：Zapp2Photo/Shutterstock）。世卫组织表示，用户在就医前正越来越多地借助人工智能进行初步诊断，且在治疗领域也出现了一些有限的生成式AI工具试验。但问题是，如果用于训练模型的数据缺乏多样性，可能导致误诊或对某些群体产生偏见。此外，如果被未受过相关训练的人使用，还可能导致滥用。世卫组织表示，对大型语言模型在支持医疗专业人士、患者、研究人员和科学家方面的潜力持热情态度，尤其是在提高健康信息获取、作为决策辅助工具和增强诊断能力方面，但警告称“风险必须被谨慎评估”。该组织警告称：“人们担心对新技术通常会采取的审慎态度，并没有一致地应用于大型语言模型。这包括广泛遵循透明度、包容性、公众参与、专家监督和严格评估等核心价值观。” 世卫组织指出，采用的速度是其强调的关键风险之一。OpenAI的ChatGPT于去年11月发布，发布后四个月内成为历史上增长最快的消费者应用之一。它引发了科技行业的革命，厂商们争相将其生成式人工智能工具整合到软件中。谷歌在4月发布了其新版本PaLM 2大型语言模型的一个医疗版本，称为MedPaLM 2。该公司表示：“像Med-PaLM 2这类行业定制的大型语言模型，是生成式人工智能技术蓬勃发展的家族成员，有可能显著改善医疗体验。” 微软是OpenAI的主要投资者，其研究部门曾对GPT-4进行测试，以评估其在美国医学考试中的表现。微软表示：“我们的结果显示，GPT-4在没有任何专门提示设计的情况下，比及格分数高出20多分，并且优于早期的通用模型以及专门针对医学知识微调的模型。” 微软的研究人员表示，这表明GPT-4在医学教育、评估和临床实践中具有“潜在用途”，但应“适当关注准确性和安全性的挑战。” 我们的合作伙伴内容：为什么食品和饮料制造商必须寻求更高水平的灵活性数字解决方案是政府机构提高效率的关键为什么人力资源部门必须拥抱新工具，以服务快速变化的员工队伍医疗领域的大型语言模型需经过严格测试和审查但世卫组织表示：“如果匆忙采用未经测试的系统，可能会导致医疗工作者出现错误，给患者带来伤害，削弱对人工智能的信任，从而在全球范围内削弱（或延迟）这些技术的潜在长期效益和应用。” 查看所有简报注册我们的简报数据、洞察和分析直接送达您的邮箱由《Tech Monitor》团队提供注册在这里世卫组织的主要关注点是用于训练模型的数据，特别是其可能存在偏见并产生误导或不准确信息的风险。这可能对医疗的健康、公平和包容性造成影响。该组织还担心，这类模型常常会生成“幻觉”——即听起来合理但并不准确的信息，尤其对不熟悉该主题的人而言。其他担忧还包括未通过适当同意收集训练数据，特别是涉及敏感健康信息，以及生成具有说服力的虚假信息，这些信息可能看起来像是可靠的健康内容。世卫组织建议政策制定者将患者安全和保护放在制定任何有关大型语言模型使用法规的核心位置。它还建议，在批准其在常规医疗和医学领域广泛使用之前，应提供并衡量清晰的证据。埃默里大学医学院的杭州李（Hanzhou Li）对大型语言模型在医学中的伦理问题进行的一项研究发现，无论采用何种模型或方法，这种技术的使用都会引发“关键的伦理问题”，包括信任、偏见、所有权、公平性和隐私。李写道：“尽管不可否认，这种技术有潜力彻底改变医学和医学研究，但对其潜在后果保持警觉是至关重要的。” 该研究于上个月发表在医学期刊《柳叶刀》（The Lancet）上。李表示：“对这类技术的全面禁止是短视的。相反，制定旨在负责任且有效使用大型语言模型的指南是至关重要的。” 医疗领域的人工智能监管将不可避免有关医疗领域人工智能是否安全的最终评估，很可能取决于监管机构。如果风险较高，或某项技术被归类为医疗设备，通常需要经过一系列试验之后才能用于诊断或医疗领域的任何方面。在英国，药品和医疗器械监管局（MHRA）在三月发布了一篇博客，探讨这些模型以及Bard或ChatGPT等聊天机器人作为医疗工具的潜力。它发现，虽然一个不以诊断为目的的通用聊天机器人不太可能被归类为医疗设备。MHRA的软件和人工智能主管Johan Ordish在文章中写道：“然而，专门为医疗目的开发、或被改编、修改或定向用于医疗目的的大型语言模型，很可能符合医疗设备的定义。” 但情况可能更复杂，因为即使一个大型语言模型没有专门设计或修改用于医疗用途，如果开发者简单声称它可以用于医疗用途，那么它也可能符合医疗设备的定义。目前还不清楚OpenAI关于GPT-4通过医学考试的声明是否适用这一规则，或者是否需要更明确地声明其医疗能力。Ordish写道，大型语言模型的监管，尤其是在医疗领域，将是一项复杂的任务。部分原因是文件记录的困难，但如果发现它们被用于医疗目的并被推广为可用的医疗工具，那么它们不会免除医疗设备的要求。“MHRA对于如何确保大型语言模型的使用持开放态度，但任何医疗设备都必须有证据证明在正常使用条件下它是安全的，并按预期运行，同时还应遵守医疗设备法规的其他适用要求，”他解释道。“我们致力于与所有利益相关方积极合作，寻找可行的解决方案，并不断向开发人员传达我们的监管更新。” 阅读更多：欧盟或将对像ChatGPT这样的“通用人工智能”进行监管本文主题：人工智能、医学、世界卫生组织

查看全文

techmonitor

作者最近更新

世卫组织呼吁谨慎使用生成式人工智能技术于医疗领域

techmonitor

期刊订阅

我国工业物联网规模预计2020年将突破4500亿

传感器应该推进人工智能实现整体进化

AI结合智能手机传感器 可预测人类压力水平

简单的智能玻璃揭示了人工视觉的未来

AI结合智能手机传感器可预测人类压力水平