基于隐私安全计算、人工智能技术,对医疗行业大量的多维度多模态的数据进行数据清洗、归一、融合、分析等综合治理工作,基于结构化、标准化的数据集建立了疾病诊断、检查推荐、用药推荐、罕见病预测、质控规则管理等模型,为医疗数据治理、全院质控、医学研究、医保风控和临床核心业务中的痛点难点问题提供软硬件一体的大数据和人工智能全栈式解决方案,建立智慧医疗新生态。
医疗AI模型的完善同样需要大量数据的训练。放射科医生通常需要工作15年时间,平均每年经手至少15000个病例才算小有所成。这意味着人工智能需要对同等规模病例(22.5万)的学习才能达到放射科专家水平。遗憾的是,目前最大的开放数据库仅有10万病例的规模,离满足人工智能训练的要求尚有一定距离。事实上,各个医疗机构可能拥有包含数十万条记录和图像的档案,但因为隐私和法规的原因,这些数据完全是彼此孤立无法使用的。无论是人工智能企业,或是正在使用人工智能的医疗机构都只能依赖手头仅有的数据来源。高质量训练数据的严重匮乏,严重阻碍了医疗AI的更进一步。
完全依赖开放数据库训练的模型,很有可能缺乏真正的临床价值。2021年,剑桥大学对公开发布的有关医疗AI的2212篇论文进行筛选,从中选出62篇可以达到研究人员设定的较高的入选标准的论文。然而,研究人员最终发现所有62篇实际上都没有潜在的临床应用价值。数据集质量和规模严重不足是导致这一问题的重要原因;此外,仅仅采用来源于开放数据库的公共数据集也是原因之一。随着时间的推移,公共数据集不断发展并融合新的数据,很可能导致最初的结果无法复现。剑桥大学的研究人员提出了三个观点:第一,公共数据集可能导致严重的偏差风险,谨慎使用。第二,为了使模型适用于不同的群体和独立的外部数据集,训练数据应该保持多样性和适当的规模。第三,除了更高质量的数据集外,还需要可复现和外部验证的证明,这样才能增加模型被推进并整合到未来临床试验中的可能性。
电子病历是信息技术和网络技术在医疗领域的必然产物,是医院病历现代化管理的必然趋势,其在临床的初步应用,极大地提高了医院的工作效率和医疗质量。翼方健数基于算法技术、数据结构化等能力,构建了强大完善的知识库体系,拥有一系列具有优秀表达能力的智能模型。在各种以电子病历为中心的应用场景下,有效地提升了诸如病历自动化书写,全程质控,单病种费用监测系统、传染病预警、危重症提示、罕见病临床辅助决策、赋能分级诊疗等多种能力。
因为医疗数据包含了大量患者隐私。医疗机构或者患者绝对不会因为模型训练愿意承担隐私泄露的风险。联邦学习则可以让多个机构利用自己的数据进行多次迭代训练模型,随后将训练完成的模型上传共享。这个过程并不会涉及到敏感的临床数据或病人隐私,从而解决了大众的担忧。假设三家医院决定联合起来建立一个中心深度神经网络用于帮助自动分析脑肿瘤图像,并选择使用客户机-服务器的联邦学习。在整个架构中,中心服务器将维护全局深度神经网络。每个参与的医院将获得一个这个神经网络模型的副本,以便使用自己的数据进行训练。一旦在本地对模型进行了几次迭代训练,参与者就会将模型的更新版本发送回中心服务器。这个过程只发送训练完成的模型及其参数,而不会像以往的方式发送病例数据。同时,传输数据经过特殊加密,具有很好的保护效果。在收到各地上传的更新模型后,服务器将汇总各地上传的、更新后的局部模型,并对全局模型进行更新。随后,服务器会与参与机构共享更新后的模型,以便它们能够继续进行本地训练。
不难看出,在整个过程中,共享模型接触到的数据范围比任何单个组织内部拥有的数据范围都要大得多,训练也更为有效。与此同时,因为只需要传输模型数据,其对网络传输带宽的要求也降低了很多。此外,全局模型的训练并不依赖于特定的数据。因此,如果其中一家医院离开模型训练团队也不会停止模型的训练。同样,一家新医院可以随时选择加入该计划以加速模型训练。