(农健使用AI工具生成/图)
医疗模拟经营游戏《双点医院》(Two Point Hospital)可能成为现实吗?动动手指就能造一个格子间,就诊的患者得了什么病医生一目了然:情绪崩溃者被送进“笑疗室”,“光头症”者进入脱光诊所……里面怪异的机器自己就能治愈患者。
尽管这是天方夜谭,但AI医生给AI患者看病,已成为现实。就在2024年11月,在一家涵盖发病、问诊、检查、治疗等内容的闭环虚拟医院中,来自21个科室的42位AI医生在开始内测“坐诊”。该系统为清华大学智能产业研究院研发的Agent Hospital(下称“清华AI医院”)。
除了看病,这家医院更主要的目的,是打造出更强的医生智能体和更逼真的患者智能体。该研究共同通讯作者、清华大学智能产业研究院助理研究员马为之告诉南方周末记者,医生与患者在虚拟环境交流中,AI患者给AI医生反馈,AI医生从中学习,彼此训练。打造出的高水平AI医生,可以辅助人类医生,成为一个AI助手或分身。
AI已经走入越来越多医院。入院导诊、医生开病历、拍超声和CT、做手术等环节,AI均开始介入。2024年11月,国家卫生健康委等部门发布的《卫生健康行业人工智能应用场景参考指引》中共提到了84个场景,涵盖医疗服务、产业发展和教学科研多个方面。12月,上海等地也发布发展医学人工智能方案。
只不过,AI更像是沉默的后台员工不会因为喝咖啡而延误病历分析,也不会对病人的焦虑和痛苦投以同情的眼神。
“医生一半的精力能被释放出来”
身体不舒服,挂什么科?怎么挂第二天的号?到医院了,科室在几层?如何支付?这些问题“安诊儿”会立刻给出答案。
“安诊儿”是浙江省卫生健康委发布的数字健康人,2023年底上线,现已迭代为2.0版本。“用AI不仅能提高医疗健康服务的交互性,还能把线上线下的服务进行串联,整个就医流程比传统流程平均节省20分钟左右。”浙江省卫生健康信息中心副主任郭一说。
郭一介绍,为了保证“安诊儿”回答的准确性,采用严肃医疗健康数据喂养,不用不明来源的医学知识,同时也会标注回答仅供参考,具体以医生建议为准。除此之外,应用场景经过严格评估,如智能导诊分诊、健康咨询、健康知识宣教等场景,居民需求大且应用风险低。
“安诊儿”在落地医院还注入了特色数据。比如,浙江省人民医院就在此基础上做了定制版,覆盖门诊五十多个场景。该院门诊部主任袁方发现,使用一年来,通过“安诊儿”预约挂号的患者占比从5%上升到25%,院内问询数量减少了很多。
当患者踏入科室的那刻起,AI已开始承担起预问诊职能。在微医上海人工智能医院,患者讲述的病情通过HIS(医院信息系统)传到医生手上,AI对患者病情分级,提供用药指引,整个过程离不开医生。在浙江省人民医院,医生写病历可在语音输入基础上,通过AI提示关键词和疾病要点对病历内容进行补充。据悉,这项技术在住院病历书写中已经大规模推开,部分门诊科室的病历书写也已投入试用。
对医院而言,病历质量关乎医疗安全、绩效考核等多方面,已有不少医院使用AI进行病历内涵质控,避免病历中出现男性做了妇科手术、左肺病变做了右肺切除这种低级错误。“假使文书工作大模型都能解决,至少医生一半的工作精力是能够被释放出来的。”北京大学人民医院胸外科副主任医师陈修远说。
回答患者询问中,AI也有一些问题,陈修远就发现,ChatGPT等大模型似乎更多“顺着提问者作答”。美国斯坦福大学在2023年发布的一项研究指出,为了提高用户体验和参与度,对话系统往往被设计成倾向于提供建设性和支持性的回应。包括OpenAI的研究也指出,过度顺从可能导致模型在面对不当请求时缺乏足够的判断力。
在特定任务上“几乎可以达到最顶尖医生的水平”
听完患者病情描述,医生开出检查单,下一步患者前往检查室做检查。
X光、磁共振(MRI)、超声……患者在仪器上,什么都不用做,检查就已完成,虽然看不到,其实AI一样参与其中。深圳大学医学部生物医学工程学院副院长倪东介绍,磁共振因为采集信号密集,成像时间长,利用AI介入成像过程,即便只采集稀疏的信号,也能绘出高精度图像,时间可从原来的十分钟缩短到两三分钟;拍CT即便降低放射剂量,利用AI也能生成高精度图像。
看着拍出的片子,患者往往不知所以然。这些医学影像,只用黑白两色就描绘了鲜艳的人体器官,色彩转译成深浅不一的灰色音阶。随着机器学习,尤其是卷积神经网络(CNN)的兴起,医学影像成为AI最早应用到临床的实例,国内外亦涌现出众多医疗影像的算法竞赛。
尽管AI刚入局医学影像的时候,医生并不广泛认可相比前代算法,AI能带来革命性的变化。但很快,在肺结节检出、糖尿病眼底病变筛查、皮肤癌早期诊断等几个特定任务上,AI的准确率出现了突破性改变,“在肺结节检出这个特定任务上,AI几乎可以达到最顶尖医生的水平”。
倪东认为,理论上AI对经验不太丰富的医生更有帮助,但需要可视化引导,降低成本是技术可及的关键。从2019年开始,他们一直在研究NiCE平台,希望在CPU平台、Pad、手机等上面部署非常复杂的人工智能,做到实时分析。这一平台面向贫困地区,可以让医生用更低的成本就能实现AI辅助超声诊断。
作为胸外科大夫,陈修远最主要的判断是结节是否应该手术切除,在遵守诊疗指南的基础上,AI相比人的优势是更量化。医生和病人沟通时,往往会采用一些模糊的说法以表示不确定性,例如“大概率是肿瘤,不除外良性”,但是AI则擅长通过量化指标来表示结果的多样性,例如“肿瘤可能性是89.3%”,这对相当一部分病人而言,更有助于决策。
AI检出率提升也带来困惑。所有结节无论大小,卷积神经网络可以全部检出,但过多的信息可能对医生的决策造成干扰,并对患者的心理造成影响。面对这种困境,现行的方法是以结节的直径作为分水岭,例如:0-3毫米不报、3-5毫米报给医生、5毫米以上报给患者,有效平衡算法的灵敏度与临床的必要性。陈修远认为,生成式AI可能为解决这个问题发挥一定的作用,但究竟会提升医生和算法的沟通效率,还是增加沟通成本,仍需探索。
当AI和医生出现分歧
患者拿到放射科开出的报告,往往会回到专科诊室,等待医生诊断。
把AI用作诊断,准确率是绕不开的话题,人们觉得医疗上出错往往是“不能容忍的”。虽然谷歌开发的大模型Med-Gemini在MedQA(基于美国医师执照考试的数据集)取得91.1%的准确率,但人们还是会经常说一句“大模型会出错,要核查重要信息”。
为了让AI权威,微医上海人工智能医院院长张群华指出,需要经过多个步骤验证,由企业和三甲医院一同合作,经过专家反复使用验证、大数据迭代,再通过多学科多中心验证,这样的产品才具有临床指导意义。“医疗AI一定是集医生经验之精华和数据、算法三位一体的产品。”
陈修远认为,在整个医疗过程中,不同流程之间相互重叠,每个关键决策都有多个步骤反复验证,而AI只是支持其中的一小部分步骤,如果产生错误,很容易发现。“每一个新的步骤都在持续对之前步骤纠错,在临床工作架构不改变的情况下,保持医生在诊疗过程中的主导地位,AI辅助甚至替代个别步骤,并不会因为AI错误产生灾难性后果。”
问题在于,医生要如何发现AI错了?尤其是,AI辅助诊断的优势之一是实现基层医疗同质化,如果经验欠缺的医生看到AI的答案与自己的判断有出入时该怎么办?倪东认为,如果医生水平不高,AI也存在误导的可能。
这是一组矛盾:当AI和医生出现分歧,如果医生忽略,AI就没有价值;医生若完全接受,可能会削弱其权威和责任。毕竟AI没有行医执照,所有诊断书都要医生签字。“责任主体是医生,这一点未来10年、20年都不会变。”张群华说。
现在看,“黑箱”有被打开的希望。OpenAI o1能够模拟人类长链条推理思考,给出决策链条,但生成的时间变慢了。
对于生成式模型的可解释性,马为之提到,常见的有三种不同实现方式:一是结果过程同步完成,例如思维链技术;二是有结果之后再补足过程,根据结果使用额外模型生成解释;三是结果过程同步完成生成后,再进行后校验,保证准确性。“如果模型的准确率足够高,哪怕不能给出完整的推理细节,我是不是也能采用输出的答案?这是一个容忍度问题。”
AI辅助的三维重建是一个例子。人体是三维的,CT是二维的,从二维到三维需要医生在自己大脑中重建影像。2022年开始,陈修远和团队一起开展了为期两年的多中心临床试验,结果说明,AI的辅助可以有效提升手术规划的准确率和时间效率。而且,他还发现了不少自己之前认知错误的地方,“从二维到三维想象是件很难的事”。
从2019年到现在,陈修远所在科室已有1/3的手术病人接受了AI三维重建。“如果没有三维重建,一些比较复杂的手术在开始的初期可能会有很大的阻力,有这项技术后,医生手术的信心增强了。”
AI医生会诊
当遇到复杂病症,医生难以应对之时怎么办?现实中,往往需要科室专家协力,或者多学科联合会诊(MDT)。
AI医生能否会诊?在马为之的设想中,不同专精能力的AI医生能像人类医生一样,再把智力资源汇聚起来,实现AI医生会诊。他们发现,多个智能体在针对同一个病例会诊时,推理过程和得出的结论,比单个智能体更强。但是在医疗应用场景下,决策不仅要保证准确性,还需要交互能力和人情味,需要医生和患者双双接受。
现在AI已在特定模态的特定任务上取得了专业表现,但将各部分能力结合,构建多模态医疗AI尚是难点。马为之认为,由一个统一模型完成不同任务在技术上仍有挑战性,至少在部分任务上效果上没有单个模型好。“我们在技术路线上可以做一些优化,把医生智能体作为决策大脑,再将传统的影像诊断等模型作为工具,用有很强推理能力的大脑调用其他的工具模型获得信息,最后做出决策。”
在此过程中,上述医疗智能体还将被赋予拥有记忆和经验积累的能力,像人类医生一样,在任务的解决过程中学习进步。如果AI病人能满足超拟人、广分布和多样化的条件,那么AI医生诊治的AI患者数量越多,能力就会变得越强。
一位医疗AI研发人员告诉南方周末记者,他期待未来有一个AI for Science(AI驱动的科学研究)或AI for Medical(AI驱动的医学研究)的底座,满足医疗领域极高的专业需求,但问题在于,如果用专业数据,会面临数据小、与真实世界脱节问题;若使用真实世界数据,面临数据真实性和隐私性问题;若将二者结合,也可能会面临很大困难。
清华AI医院中目前有超50万“合成数据”构造的虚拟患者用大模型、知识库和少量案例生成的虚拟数据。生成过程中,保证患者的表现符合医学规律。基于健康医疗数据使用有种种限制,合成数据被看作是隐私保护的方法之一,但亦存争议,比如如果模型过拟合(在训练数据良好但在测试数据表现不佳)或生成不现实的数据,会限制实用性,还可能会放大真实数据中的偏差。
生成医疗数据似乎存在一个悖论。“如果模型可以生成以假乱真的数据,那说明模型已经足够了解人体,那么生成的数据就已不再重要。”数据隐私也是陈修远关注的课题之一,现在训练模型的数据限制在院内,他们正在分析什么数据可以以何种形式参与院外更大规模的训练,“随着模型的算法复杂程度和训练的硬件需求越来越高,在院内训练甚至在院内部署模型都将难以实现”。
医疗AI究竟如何使用?世界卫生组织在指南《医疗卫生中AI使用的伦理和管治》给出乐观、悲观两种观点,前者认为会减轻医生负担,投身更有挑战性的工作,后者认为会减少工作岗位。张群华曾问许多医生,心目中的AI应该是怎样的,大家的共识是:AI应当是医生的左手,拥抱AI的医生比不拥抱AI的医生,更能让患者受益。
(南方周末记者黄思卓、实习生刘圆圆对本文亦有贡献。)
南方周末记者 宋炳晨
责编 曹海东