原文作者:Mariana Lenharo
研究人员表示,他们的AI系统或推动医疗资源的普及。
一个基于谷歌大型语言模型的对话机器人能收集模拟患者的病史,并给出各种诊断。来源:Tero Vesalainen/Getty
一个被训练学习“看病”的人工智能(AI)系统在与模拟病人交谈时可媲美乃至超过人类医生的表现,并能根据患者病史给出可能的诊断结果[1]。
这个对话机器人基于谷歌(Google)开发的大型语言模型(LLM),在呼吸道疾病和心血管疾病等方面的诊断比有执业资格的初级保健医师更加准确。与人类医生相比,该机器人在医疗对话中能获取同等量的信息,而且更有同理心。
“据我们所知,这是首个以诊断对话和获取病史为设计目标的对话式AI系统。”Google Health的临床研究科学家、该研究[1]共同作者Alan Karthikesalingam说。该研究1月11日发布于arXiv预印本服务器,尚未经过同行评审。
该对话机器人名为Articulate Medical Intelligence Explorer(简称AMIE),尚处于纯实验阶段。它还未在有真实健康问题的人群中测试过,只在经过训练患者模仿者中测试过。Karthikesalingam说:“我们希望大家能谨慎谦逊地解读结果。”
即使该机器人距离临床应用仍很远,但作者认为,它最终或能推动医疗护理的普及。这个工具能作为助手,但不应取代病人与医生的交流,哈佛大学医学院内科医生Adam Rodman说,“医疗绝不是收集信息这么简单而是关于人与人的关系。”
学习干“细活”
意图将LLM用于医疗领域的开发者很少研究过这类系统是否能模仿医生采集患者病史的能力,并在此基础上做出诊断。医学生经过长年累月的训练才具备这种能力,Rodman说,“这是医生需要掌握的最重要也最难的技能之一。”
开发者面对的一个挑战是缺少作为训练数据的真实世界医疗对话,位于加州山景城的Google Health的AI研究科学家、该研究共同作者Vivek Natarajan 说道。为了克服这个挑战,研究团队设计了一种方法,让这个对话机器人用它自己的“对话”进行训练。
研究团队先用现成的真实世界数据对基础LLM进行了初轮微调,这类数据包括电子病历和医疗对话的转录文本。为进一步训练该模型,团队再让这个LLM扮演有特定疾病的患者和想了解病史并做出诊断的富有同情心的医生。
该团队还让这个模型扮演了另一个角色:一个给医患对话打分并提出改进意见的评委。这些评语会被用来进一步训练这个LLM,并生成改进后的对话。
为测试该系统,研究团队招募了训练后能模拟病人的20人,让他们同时与AMIE和20名有执业资格的医师进行基于文字的医疗咨询,并且不知道和他们对话的是人还是机器。
这些模仿者模拟了149种临床情景,并被要求对体验进行评价。一组专家也对AMIE和人类医师的表现进行打分。
AMIE得高分
在测试的全部6个医疗专科中,该机器人的诊断准确率均媲美或超越了人类医生。在26个评估对话质量的指标中,该机器人有24个指标的得分高于人类医生,包括礼貌程度,对疾病和疗法的解释,给人感觉诚实,以及表达关心和关注。
Karthikesalingam说:“这绝不是说语言模型在了解病史方面比医生要强。”他指出,研究中的初级保健医生可能并不习惯和病人用文字沟通,这会影响他们的表现。
而LLM在这方面具有天然的优势,能快速给出结构清晰而具体的回答,Karthikesalingam说,这让它们能不知疲倦地照顾病人的需求。
“一视同仁”的对话机器人
他说,该研究接下来的重要一步是开展更具体的研究,分析可能存在的偏见,同时确保该系统能同等对待不同人群。这个谷歌团队已经在思考,如果在真正有健康问题的人群中测试该系统需要满足哪些伦理要求。
杜克新加坡国立大学医学院临床AI科学家Daniel Ting也认为,对该系统进行偏见测试至关重要,这样才能保证算法不会区别对待训练数据中代表性不高的族群。
对话机器人用户的隐私也是需要考量的重要问题,Ting说,“对于现在使用的很多商业大型语言模型平台来说,我们仍不知道数据究竟储存在那里,也不知道这些数据是如何被分析的。”
原文以
Google AI has better bedside manner than human doctors and makes better diagnoses标题发表在2024年1月12日《自然》的新闻版块上
nature