引领科技潮流的大模型,正在发力医疗与健康市常发布在《急诊医学年鉴》、BMJ等期刊的研究显示,医疗大模型在部分测试中比肩甚至超越了医生,在保证医疗服务准确率与公平性、提升医疗系统工作效率等方面展现出应用优势与价值。头部科技公司正在持续推出、调优医疗大模型,并向医疗机构开放体验。然而,医疗大模型要真正在医疗机构落地乃至普及,需要一套具有性价比的私有化部署方案,以应对数据安全和算力芯片价格昂贵、供货周期长的挑战。比如医疗人工智能解决方案提供商北京惠每云科技有限公司 (以下简称“惠每科技”)携手英特尔,基于第四代英特尔至强可扩展处理器,打造了量化和非量化两种医疗大模型加速方案,助力实现大模型在医疗系统的简捷部署,让AI在更多医疗流程发挥更大作用。
部分指标超越人类医生?大模型在医疗领域潜力可观
大模型与医疗行业,有着天然的契合性。医疗领域存在大量模态种类丰富的数据,且呈现出多学科、跨领域的特点。而大模型的长项就是对多类数据进行整合总结、分析判断和自动摘要。在前沿研究和企业布局的共同推动下,大模型扎根医疗,已经有了明朗的趋势。
在保证医疗准确率和提升医疗系统工作效率方面,大模型有着可观的应用潜力。一项发表在《急诊医学年鉴》杂志上的研究发现,人工智能聊天机器人对病人的诊断效果不亚于训练有素的医生。在荷兰 Jeroen Bosch 医院的试点研究中,研究人员将医生的笔记和 30 名病人的匿名信息输入两个版本的ChatGPT。结果显示,在医生的诊断中(每位医生在病例上列出了他们认为最有可能的5个诊断),有87%的病例包含正确的诊断。而ChatGPT 3.5在97%的病例中做出了正确的诊断,ChatGPT 4.0在87%的病例中做出了正确的诊断。
对于判断标准较为多元的病症比如症状繁多且个体差异较为多样的“心灵感冒”抑郁症,大模型也有望在保证医疗服务质量和公正性方面发挥作用。近期发布在医学期刊BMJ的研究显示,ChatGPT在识别抑郁症程度和确定治疗方法上展现出更高的公正性和精准性。具体来看,ChatGPT能够更精准地根据临床指南调整治疗方法,且对治疗方案有着更高的遵循度,不会因为患者的性别、年龄与社会经济地位而出现明显偏差。
围绕医疗大模型,科技企业已经着手布局。
在模型开发方面,谷歌的医疗大模型Med-PaLM2在美国医疗执照考试(USMLE)的MedQA数据集实现了86.5%的准确率。微软推出了用于生物医学领域的大型语言和视觉模型LLaVA-Med, 能根据开放性指令辅助回答关于生物医学图像的问题。百度的“产业级”医疗大模型“灵医”,已定向向公立医院、药械企业、互联网医院平台、连锁药房等200多家医疗机构开放体验。
在行业发展方面,大模型正在被引入临床诊断决策、病例数据管理等领域,衍生出一系列AI应用。
比如惠每科技以其CDSS(临床决策支持系统)产品和海量医疗数据为基础,积极引入大模型技术来为医疗机构打造更高品质的医疗 AI 应用。其面向医院的核心应用Dr.Mayson,融入了PDCA(计划-执行-检查-处理)过程管理和CDSS。具体来看,Dr.Mayson利用机器学习、深度学习、大数据挖掘等技术,一方面能够智能识别并分析病历文书、LIS(实验室信息管理系统)/RIS(放射信息管理系统)报告等患者完整病历数据,另一方面能够为医院构建专门的医学知识库,为医生、医技、护士、管理方提供实时智能参考与建议。
在惠每科技最新发布的CDSS 3.0架构中,新一代 AI 大数据处理平台已集成了医疗大模型,并已经在某合作医院的病历生成等场景中获得了医生的认可。
如何实现部署和普及?性价比是关键
数据安全和算力成本,是医疗大模型部署落地的两大难题。由于行业特殊性,医疗机构对于数据和隐私安全极其重视,任何医疗数据都要在安全可控的内网环境存储和传输,因此医疗大模型更适合私有化的部署环境。而大模型的训练和推理,要堆叠大量的专用加速芯片,其高额成本和较长的供货周期,往往令医疗机构望而却步。
因此,医疗大模型要实现在医疗机构的落地和扩展,需要一套具有性价比且安全稳定的部署方案。
惠每科技便携手英特尔,基于第四代英特尔至强可扩展处理器,打造了量化和非量化两种医疗大模型优化方案。
量化能够为大模型“瘦身”。理论上,模型的参数精度越高,占用的存储资源越多。因此,量化可以从降低参数精度着手,将训练好的模型的权值、激活值等从高精度数据格式 (如 FP32 等) 转化为低精度数据格式 (如 INT4 /INT8 等),从而降低推理过程中对内存等资源的需求,让平台可以容纳更大参数规模的大模型,并大幅提升推理速度。
在惠每科技与英特尔的合作中,双方基于第四代英特尔至强可扩展处理器内置的指令集,通过英特尔开发和开源的BigDL-LLM 大模型库来实现推理加速量化方案。BigDL-LLM提供了面向不同低精度数据格式的支持和优化,还可以给予不同处理器内置指令集(如英特尔 AVX-512_VNNI、英特尔AMX等)及配套的软件实施推理加速,使大模型在英特尔架构平台上实现更高的推理效率。
在实际使用中,BigDL-LLM 为医疗大模型提供了便捷命令和编程接口两种使用方式,通过便捷命令方法,惠每科技可以方便地完成模型量化并评估量化后的推理效果,判断该量化方案是否适用于当前模型。基于BigDL-LLM 提供的HuggingFace 和 LangChain编程接口,用户能够将量化方案快捷地整合到HuggingFace 或 LangChain 的项目代码,高效完成模型部署。
在非量化优化方案中,英特尔提供了键值(KV)缓存、算子融合的OpenVINO 加速方案。
KV缓存用于通过键值对的方式存储数据,能加速和优化数据访问。在惠每科技主要使用的开源基座大模型ChatGLM上,英特尔OpenVINO非量化方案利用零拷贝(Zero-Copy)视图来传递预分配KV 所需的内存副本空间,避免数据的多次拷贝,有效实现 KV 缓存加速。
还可以引入第四代至强可扩展处理器内置的英特尔AMX指令集,助力ChatGLM 等医疗大模型加速BF16/INT8 精度数据格式的模型推理,实现算子融合,在保证精度的同时提高医疗大模型的运算效率,加速推理过程。
OpenVINO工具套件还提供了在 HuggingFace 上的 Optimum 接口,让优化效果更便捷地扩展到更多医疗大模型的推理应用中。
通过惠每科技与英特尔的协同优化,基于惠每科技医疗大模型构建的医疗AI应用能在保证精度的前提下有效提升医疗大模型的推理速度,帮助医疗机构有效地节约成本。接下来,双方将对大模型技术在医疗领域中更广泛和深入的应用开展更多探索,进而推动医疗全流程的 AI 技术加持或智能化,让智慧医疗惠及更多医与患,从而普惠大众。
作者丨
张心怡
编辑丨赵晨
美编丨马利亚
监制丨连晓东