马路上,人流车流源源不断;街巷里,烟火气重新开始弥漫;写字楼里的键盘声,工厂里机器的转动声,学校里的读书声。
“或多难以固邦国,或殷忧以启圣明”。疫情发生后,各地政府迅速组建队伍开展抗疫工作,无数医疗人员不顾危险奔赴抗疫前线,火神山雷神山医院“硬核”开建,四面八方的爱心物资跨越千里驰援而来。无私捐献血浆的康复者,勇敢接受疫苗接种的志愿者,奔走在大街小巷的外卖员,爱与希望从未停下脚步,各行各业的人都用自己的方式贡献着的力量,为打赢这场战疫增添砝码。
新冠疫情爆发后,学术界也积极探索科学抗疫、AI 抗疫之路。疫情数据预测、科普知识、热点人物分析、热点事件挖掘、科研成果分析、防控定位、健康自测、防控物资信息、心理分析干预,科研人员利用 AI、大数据等新兴技术,发挥科技优势,推出多项大数据服务,为打赢抗疫战争提供有力的保障。
疫情期间,清华大学 AMiner 团队联合多个研究团队和机构在其科技大数据挖掘服务平台基础上研发上线“知识疫图”系统(https://covid-19.aminer.cn,以下简称知识疫图),内容包括新冠肺炎开放数据集、疫情智能驾驶舱、高关注度专家学者分析、新冠肺炎学术成果时间线、新冠肺炎惠民惠企政策地图,以及新冠肺炎期间用户在线社交行为研究等,以期从繁杂的信息中客观地梳理出疫情发展脉络,用 AI 让大众更全面深入的知道新冠疫情深度知识。系统上线后获得了广泛的关注,帮助社会公众深入了解疫情发展和科普知识,为抗击疫情做出了自己的贡献。
本次 AI TIME 技术分享专题,我们很荣幸的邀请到了来自清华大学 AMiner 团队的张鹏博士为大家分享 AI 和大数据在新冠肺炎知识智能服务中的应用。张博士的分享主要围绕知识疫图展开,知识疫图的推出主要有汇聚冠状病毒的各种数据源、基于大数据的智能预测、构建冠状病毒的知识图谱三个目标。其构建的基础是 AMiner 平台(https://aminer.cn)多年大规模科技知识图谱的积累,如图一所示,包含三个核心任务,也是最基本的技术逻辑。知识疫图根据其目标设计了多方面的项目内容,主要围绕数据、预测、挖掘、知识、服务等几大板块。
图一 知识图谱
目标一:汇聚冠状病毒的各种数据源
了解一个新鲜事物最直接的方法是收集它各个方面的信息,针对新冠肺炎,AMiner 团队的目标是汇集全世界最全面的新冠肺炎开发数据源。目前在团队成员、合作伙伴,志愿者的共同协作下,已汇聚了 333 项数据资源,并且还在不断更新中。这些数据几乎涵盖了疫情的所有范围,包括疫情、科研、知识、媒体、政策等。这些开放数据源都有其特色所在,比如提供了疫情确诊实时数据的约翰霍普金斯大学(JHU)数据集;可供 AI 研究者开发算法的新冠肺炎患者 CT 图像和临床表现数据集;汇聚了全世界八十多位志愿者参与的 BiCovid- 新冠肺炎疫情多语文本检索和分享数据集。这些开放数据源来自全世界各个地区、国家的权威官方机构,包括学术界的科研成果、疫情科普知识、媒体报道或相关政策。
1)学术成果时间线(https://www.aminer.cn/ncp-pubs)
针对专家文献进行筛选,基于文献内容提供专业的分析和解读,形成通俗易懂的摘要,让研究者甚至普通的民众都可以简单明地了解学术界对疫情、病毒的研究成果和进展状况。系统还从大量的新闻媒体、社交平台数据中,提取专家的论点以及发现热点的学术事件,进行归纳总结。基于 AMiner 平台专家、论文数据和舆情平台资讯数据,通过数据挖掘结合人工筛选,以时间轴的方式聚合当前最新和重点学术论文、论点和事件,形成学术成果时间线,为相关领域的学者和产业从业者提供学术情报。
2)高关注专家分析(https://2019-ncov.aminer.cn/)
除了学术成果方面的深入挖掘外,AMiner 团队还对高关注的专家进行了深度分析。包括疫情相关国内外专家学者比如钟南山、李兰娟、Walter Ian Lipkin 、Rolf Hilgenfeld、Anthony S. Fauci 等,还包括在疫情中不幸去世的学者专家。学者专家信息的深度挖掘主要基于 AMiner 学术知识图谱和语义挖掘算法,不仅有学者的个人基本信息,还涵盖了其研究领域、研究水平、权威性、研究代表性成果等学术方面的信息,从而提供丰富的分析结果和实时动态。
3)惠民惠企政策地图(https://zhengce.aminer.cn/)
知识疫图还聚焦社会、国家管理层面的信息。收集、更新和可视化展示了疫情下各级政府组织、国家各部委和全国金融机构制定的惠民惠企政策和企业互助信息。在使用系统查看政策时,可以通过地图进行查询和搜索。同时提供政策各个维度的分类索引,并邀请专家进行政策解读。企业可以在系统进行登记,系统会对政策进行智能匹配,推送给企业,助力企业平稳渡过疫情。
图二 惠民惠企政策地图
图三 智能政策匹配
4)新闻事件分析日报(https://www.newsminer.net/daily/)
在疫情期间,各种媒体报道信息是大家的重要关注点。知识疫图基于语义分析技术,比如分词、实体识别、5W1H 抽取等,全自动分析热点新闻事件包括话题识别、在线聚类、演化分析,形成如图四所示的新冠肺炎新闻事件分析日报。分析日报融合了 XLORE 百科知识图谱背景知识,利用实体消岐、实体链接等技术,提供了结合知识的新闻事件分析,方便了大家快速、高效地查看疫情热点信息。除了给出简单可视化信息展示以外,系统还给出了实体之间的关联信息。如图四、五所示:
图四 新闻事件分析日报
图五 实体关联图
5)用户在线社交行为研究
社交平台是大家日常获取信息的重要途径,知识疫图系统基于微信大数据,研究用户的在线社交行为,目的在于发现用户关心的热点话题以及疫情话题的网络传播情况。在此基础上,可以进一步分析疫情对于用户心理的影响。用户在线社交行为研究产生的分析图,展示了主要的分析思路,最后的分析结果可以帮助对重点疫情地区群体进行心理上的干预,防止出现大面积的心理问题。如图六所示:
图六 用户在线社交行为研究
目标二:基于大数据的智能预测
在汇集大量的数据源之后,研究人员利用数据进行深入地分析,提供了丰富的分析结果并和具有实际意义的服务功能。除了分析之外,还要一项重要的研究工作就是智能预测。预测问题是指给定历史数据记录(训练集),每条记录包含属性集合,预测问题是用一些属性来预测指定的属性。预测问题大致上可以分为两类,一类是预测属性是分类标签的分类预测,另一类是预测属性是连续属性值的回归预测。
1)疫情趋势预测(https://2019-ncov.aminer.cn/data)
针对新冠肺炎,主要是疫情趋势的预测。以官方公布数据为基础,预测确诊人数、治愈人数等数据上的变化趋势,寻找疫情拐点。知识疫图采用了如图七所示的传统传染病动力传播 SEIR 模型,引入医疗隔离和大众防疫影响因子,预测不同阶段新冠病毒再生指数,通过机器学习算法预测感染人数变化。因为统计口径的变化,积累病例数据的释放等问题,需要对数据异常波动进行处理。在发病到确诊周期的预测问题上,研究者针对湖北与非湖北地区进行了对比,如图八的预测结果显示数据异常波动对预测结果的影响,非湖北地区结果更为准确。
图七 SEIR 模型示意图
图八 湖北与非湖北地区对比
2)疫情Dashboard (https://covid-dashboard.aminer.cn/)
除了疫情趋势的预测以外,知识疫图还通过综合多方因素,比如确诊人数、治愈人数,地区人口数量、面积、医疗指数等,推出了基于知识的全球新冠疫情风险评估和辅助决策系统。此系统主要在于预测地区新冠疫情的风险指数,利用该指数可以辅助决策何时复工复产、开学等。知识疫图风险指数的评估不仅涵盖了全球的地区,同时还是多级别、细粒度风险指数评估。面积较大,疫情较为中心的国家,预测还可以具体省或州等更小级别的评估。除此之外,该评估指数会随着疫情数据的变化、关键事件的发生进行动态的更新。如图九的全球新冠肺炎疫情预测地图,除了可以可视化展示各地区的风险评估指数以外,其还提供了全球疫情事件时间轴、全球实时疫情数据和预测,帮助大家了解全球疫情传播状况。
图九 全球新冠肺炎疫情预测地图
图十 全球疫情事件时间轴
在智能预测方面,知识疫图还推出了多个智能工具。比如新闻订阅推送(https://newsminer.net/tech/),用户可以在系统自定义新闻推送需求,系统将每天对其推送新闻资讯,满足用户需求。又比如新型冠状病毒自测评估(https://covid-19-en.tsing-care.com/),基于流行病学史和个人症状,做出建议性意见,供测试者参考。
图十一 新闻订阅推送
图十二 自测评估
目标三:构建冠状病毒的知识图谱
1)病毒知识集(https://aminerofficials.github.io/)
近些年来 SARS、MERS、H5N1、COVID-19 等病毒的爆发,引发了大家对病毒的重视,以本次新冠病毒为契机,知识疫图对近几十年来以冠状病毒为主的对人类有感染性的重大病毒进行了梳理,建立了冠状及流感病毒知识集锦。
基于 AMiner 平台 2 亿篇论文数据,研究人员进行了深入挖掘,包括技术来源、热度、发展趋势,进而预测未来的技术前景,并搭建了冠状病毒研究趋势分析系统。
系统主要包括技术趋势、国家趋势、机构趋势、学者趋势五大主要功能板块,可以帮助研究人员理解领域的研究历史和现状,快速识别研究的前沿热点问题。
系统包含的如图十三所示的领域技术分析河流图能够可视化的描述研究热点的发展趋势,各个时间阶段的高引论文等。
图十三 领域技术分析河流图
2)COVID-19 知识图谱(https://covid-19.aminer.cn/kg/)
为了对抗新型冠状病毒(COVID-19),全世界的科研人员、医疗人员、政府工作人员和公众渴望获得开放、全面的新冠知识。知识疫图收集整理了现有 COVID-19 开放知识图谱,并进一步融合了它们,构建了一个大规模、结构化、中英双语的新冠知识图谱(COKG-19)。目前,COKG-19 包含了 505 个概念、393 个属性、26282 个实例和 32352 个知识三元组,覆盖了医疗、健康、物资、防控、科研和人物等。COKG-19 旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。图十四-图十六是新冠疫情部分的知识图谱,未来知识疫图还将融合更多的开放知识,以不断更新 COKG-19。
图十四 COVID-19 知识图谱
图十五 COVID-19 知识图谱
图十六 COVID-19 知识图谱
搭建好完整的知识图谱后,知识疫图还据此推出了多项服务。图十七的知识查询、知识链接服务,用户可以通过系统快速查询想要了解的病毒信息。图十八的事件文本智能挖掘功能,该功能可以自动从文本中挖掘知识实体,并与知识图谱相关联,提供更多的知识背景,帮助读者更好地理解信息。
图十七 知识查询、知识链接
图十八 事件文本智能挖掘功能
张博士在分享专业知识的同时,还提供了众多的具体使用实例,引发了大家对知识疫图的浓厚兴趣和广泛讨论。大家在学习过程中也产生了很多的疑问,直播后张鹏博士来到直播微信群与大家就相关问题进行了互动:
观众:我们的开源项目里有预测相关的算法么?
张鹏:目前的开源项目里不包含预测相关的算法,后续会逐步开源相关代码。
观众:疫情预测是如何处理政策等客观因素的影响的?
张鹏:政策这类客观的简介因素我们是用隔离指数等参数来体现的。
观众:lstm 算法就是用于时间序列预测上的吗?
张鹏:LSTM 算法严格说并不是仅用于时间序列预测的,只是在建模时间序列的数据时有它的优势。
观众:您有提到关于一些重量级专家的言论的研究,是否可以考虑将 BERT 应用到这方面上,来为疫情预测任务提供基于舆情的辅助信息呢?
张鹏:完全可以。
观众:在疫情预测告一段落之后,咱们有什么新的计划和研究内容吗?
张鹏:我们正在尝试把这套系统的核心技术进行转化和沉淀,比如跟医学领域的专家合作,把这套系统积累的技术转化成通用的应对公共卫生事件的风险评估和辅助系统等。
非常感谢张鹏博士为这次系列专题做了极好的开篇,还请大家继续关注知识疫图专题的其他分享,接下来将围绕数据预测方法、空间和时间维度知识处理和可视化等展开,下期见!