(本系列均为南方周末、南方人物周刊原创,限时免费阅读中)
1月21日,导师建议我做一个新冠的数据展示图(dashboard),类似船员航行时需要关注的仪表盘。我们所有的数据库都是开源的,大家可以在Github查到所有的历史数据,相当于我们的数据在接受全世界的审核。
世卫的数据是一天更新一次,不像我们实时更新,因此我们的总数会比它那天那个时刻公布的要大。我们做过一个世卫和我们数字的对比,发现世卫的数字总是在第二天才追上我们前一天发布的数字。
通过这次疫情,我感受到及时公布数据的重要性,尽管不断攀升的数字看起来很恐怖,但是可能会起到让你待在家里不要出门的作用,这对阻断传染病传播是最有效的办法。
这是4月4日在美国纽约中央公园拍摄的临时医院。(新华社/路透/图)
每一日,你的手机都会弹出全球新冠疫情的最新统计数据,这其中一个信源是美国约翰霍普金斯大学(Johns Hopkins University,简称JHU)。
JHU疫情数据已被多家媒体引用和报道,包括纽约时报、CNN、法新社、BBC以及新华社等。
疫情可视化数据图由JHU土木与系统工程学院(CaSE)的Lauren Gardner教授和她的学生开发,目前研究团队核心成员有三人,24小时不间断实时更新。
JHU是一座百年名校,主校区坐落于美国大西洋沿岸马里兰州巴尔的摩市,距离美国首都华盛顿六十多公里。JHU医学院和公共卫生学院均在全美名列前茅,而医学院的教学研究单位约翰霍普金斯医院连续21年被评为全美最佳医院。
JHU“新冠病毒研究中心”官网显示,该疫情数据在1月22日上线,每日平均使用量(feature requests)从1月底的2亿次,在3月初上升到每日12亿次,高峰时每日近20亿次。
约翰霍普金斯大学疫情数据4月4日截图
为何一个高校开发的数据图受到全球关注和信赖?
北京时间2020年4月3日,JHU数据图显示,全球新冠肺炎感染人数突破100万,南方周末记者当天专访了JHU土木与系统工程学院的董恩盛和杜鸿儒,解读上亿阅读量背后的故事。他们是Lauren Gardner教授指导的博士一年级学生,从早期开始就深度参与了JHU疫情地图的数据收集与分析工作。
杜鸿儒(左)和董恩盛(右)(受访者供图/图)
1月22日上线,手动录入到自动更新
南方周末:世界卫生组织和美国疾控中心每天也在更新全球和美国的新冠确诊数据,大家为什么会信赖并使用你们的数据?你们的数据来源是哪些?
董恩盛:我们是从各个国家的官方网站收集数据,比如中国的数据主要来源于国家卫健委和“丁香园”。“丁香园”将每个省份的疫情情况都制成了表格,这样便于科研工作者录入和处理。
美国的数据不像中国是自下而上、层层上报和发布,我们会结合州郡县市的官方网站、政府新闻发布会、权威部门或媒体发表在Twitter等渠道的疫情内容进行数据挖掘。
世界卫生组织和美国疾控中心的数据,虽然也被我们列作数据来源,但它们对于我们来说主要是核查(validation)作用,因为它们的数据更新相对滞后,也没有像我们一样达到郡县级的数据精度。
所以,我们通常是今天收集好数据并发布,等第二天世卫和疾控的数据出来再比对,目前来看,我们发现我们报得很及时,也很准确。
另外,我们所有的数据库都是开源的,大家可以在Github查到所有的历史数据,相当于我们的数据在接受全世界的审核。除此之外,我们还有公开的邮箱接受大家的建议和意见。
南方周末:我们发现你们公布的全球确诊人数总是比世界卫生组织多,这是为什么?比如说到4月3日,世卫组织的全球确诊人数还没有超过百万,但你们的数据显示已经超过百万了。
杜鸿儒:世卫的数据是一天更新一次,不像我们实时更新,因此我们的总数会比它那天那个时刻公布的要大。我们做过一个世卫和我们数字的对比,发现世卫的数字总是在第二天才追上我们前一天发布的数字。这也说明了我们数据很准确,而且比他们更新得更快。
董恩盛:此外,在我们的定义中,确诊人数(confirmed cases)其实还包括了推定阳性病例(presumptive positive cases),原因是各地对推定阳性病例和疑似病例(suspected cases)等群体定义不同,很难统一。以美国为例,推定阳性病例意味着他们已被地方实验室确认感染新冠病毒,但还未经疾控中心核实纳入统计,所以我们还是把推定阳性病例纳入到确诊数字中。
4月4日世界卫生组织发布的疫情数据,确诊人数也超过百万。(世界卫生组织官网截图/图)
南方周末:北京时间1月23日,武汉交通“封城”,当天你们的数据图就上线了,当时为什么有这个想法?
董恩盛:1月20日是美国的马丁路德金纪念日,放了三天的小长假。到了1月21日我们课题组开会的时候,导师Lauren Gardner教授问我知不知道现在中国新冠疫情已经非常严重了,我说“是的,我非常担心,也想做些相关的研究”。
当时导师建议我做一个新冠的数据展示图(dashboard),类似船员航行时需要关注的仪表盘。这方面的技术我比较熟悉,因为2019年五六月份,我跟着导师已经做过一个关于美国麻疹的数据展示图。
1月21日开始准备,教授主外我主内。教授负责联络和协调资源,并对我的工作进行宏观性的指导,我花了六七个小时把初代的数据图做了出来,第二天1月22日(美东时间)上线,正好在武汉交通“封城”后发布,那个时候国家卫健委也已经通报了全国的新冠疫情情况。
南方周末:当时只有你一个人在做数据更新?忙得过来吗?
董恩盛:到1月底基本上就是我一个人纯手动更新数据,很花时间。我那个时候基本是不睡觉的状态,每天要更新四五次,我还退了一门课来确保数据及时更新。
后来被感染国家数量越来越多,数据精细度要求越来越高,我一个人就渐渐吃不消了。一开始只是想做一个研究的辅助性的工具,没想到现在会得到这么高的曝光量。
南方周末:地图现在包括了181个国家和地区的数据,涉及不同的语言,搜集数据的过程中遇到了什么困难?
杜鸿儒:我是在1月30日左右加入,和董恩盛一起做数据更新。我们去各个国家的卫生部门和权威媒体网站一个个找,小语种国家的网页直接用Google Translate整个翻译成英文,然后将确诊病例的数据转到Excel/csv里,最后再导在软件里进行数据可视化。
对于我们来说,比较麻烦的是有的地区比如某个岛隶属于英国、法国或荷兰等,个别数据源容易错把它们当作单独的国家来看待。
南方周末:数据库已经上线两个多月了,这期间出过错误吗?
杜鸿儒:早期手动录入的时候,免不了会出现一点小错误,但我们的邮箱会立马收到读者的邮件,质问我们“你为什么错了”。
后来我们觉得手动录入实在不是长久之计,组里的成员熬了一周,每天至少工作15个小时,完成自动化信息收集、数据清理、更新图表的编程工作。所以,到了3月中旬,我们的更新频率基本可以做到每15分钟自动爬取一遍所有的数据,每一个小时自动更新一次数据图。
学校放假,数据不能“断更”
南方周末:目前在做类似工作的还有哪些机构,为什么你们的关注度最广?
杜鸿儒:其实我感觉我们做的数据图也不能说很厉害,只是我们占了两个优势:第一是我们做得比别人早;第二是借助JHU在公共卫生和医学领域排名靠前的优势。所以JHU发布的数据,大家都会觉得很权威的,容易取得更多的关注。
世界上第三方独立做疫情数据收集和分析的研究机构不多,我关注到的有哈佛大学。
哈佛大学的新冠疫情动态数据 4月4日截图
每个研究机构都各有所长,比如说哈佛大学的数据图是和清华大学等机构合作,我觉得他们的优点在于,将确诊数量做成不同深浅的颜色来表示严重程度,而且他们掌握了许多细节的数据去分析患者的年龄、入境时间等。不足是他们上线较晚、更新速度较慢。
南方周末:上线两个多月来,你们的数据展示图和最开始相比,有哪些变化?
董恩盛:有很大差别。以最直观的疫情地图为例,大家一开始最关心中国疫情,所以初代数据展示图是以中国为中心。你想看世界其他地方,需要手动点击。现在打开页面,可以直接看到整个世界的情况,不需要放大或者缩小地图。
从整个页面布局来说,初代数据图只是列出了确诊病例的累计总数,然后把每个国家或省份的数据单列出来。我们现在又增加了很多图表,比如说你点击一个国家,可以看到这个国家确诊数字的每日变化。
从数据精细度来说,初代只对中美加澳四国是到省(州)级的,其他都是以国家或地区为单位。后来,对美国的确诊、检测数据我们做到了郡县级(county level),当时很多人给我们写邮件,感谢我们让他们看到了自己生活区域的疫情。当然,这里面也有专家给我们提了一些宝贵的建议,使我们的数据展示更加便捷准确。
南方周末:除了感谢信,你们还收到了什么样的反馈?
杜鸿儒:我们的公共邮箱大概每天能收到一两千封关于数据图的邮件,我的个人邮箱也会收到二三十封相关邮件。我们没有精力逐一回复,现在中心已经请了专门的人来回复这些邮件。
据我所知,美国很多州的疾控中心直接采用了我们的数据,包括马里兰州、佛罗里达州、俄勒冈州等,各级政要包括美国副总统迈克彭斯谈到新冠疫情的时候也引用了我们的数据图。
南方周末:你们学校是不是也放假了,数据会停更吗?会不会觉得压力很大?
董恩盛:现在美国的学校基本都网上授课,我们的校园里面也只见花不见人了。但是我们这个项目很特殊,数据不能“断更”,一旦更新出现问题,会影响到全世界。
所以学校也很重视,同时也有第三方独立的GIS地图软件公司给予我们数据可视化的技术指导。
同时,学校还专门建立了新冠研究中心(Coronavirus Resource Center)网站,把学校所有和新冠相关的内容,包括我们的数据图、疫苗、预防等内容都集结在里面,供公众浏览。
“感受到及时公布数据的重要性”
南方周末:除了数据收集、更新、可视化展示,你们是否会对这些数据加以分析,并对全球疫情的趋势作出判断?
董恩盛:其实这项工作之初,我们就是打算在收集数据的基础上,建立流行病学模型去分析新冠疫情的未来发展趋势。
比如说,我们一开始采用SEIR模型(记者注:构建带有潜伏期的传染病模型)去分析,但是我们遇到了两个现实问题:一是这个数据采集量太大了,以至于我们的工作重心不得不从建模分析转向了数据收集;二是,对于模型来讲,人口流动(mobility)的数据非常重要,因为疾病的传播和人口的流动密不可分,然而许多国家出于保护隐私等原因,这方面的数据是难以获取的。
举例来说,如果我们想要证明中国采用“封城”的办法有效延缓了新冠病毒传播,我们起码需要高铁、航空等方面的一些人员流动数据。
因此,我们当时的工作更加侧重于分析,如果中国是个疫情中心,将对世界上其他国家造成什么样的影响。比如说,预估哪些国家有可能更加早出现输入型的病例,美国某些州或者机场需要采用一些检测和隔离的手段。
但是,当时初步形成的一些研究结果发表在我们的网站上,并没有一对一地对受影响的地区提出建议。后期很多地方卫生部门主动联系我们,才慢慢建立起直接的沟通合作。
南方周末:你们的数据对流行病学家的研究有什么帮助?
董恩盛:我们提供的这些原始数据非常宝贵,许多政府和媒体机构都在关注。这些数据也是开放的,科学家在这些数据的基础上做相应的分析,我们后续也会跟进的。
杜鸿儒:流行病学分成很多个板块,有的科学家关心病毒基因构成,追溯其来源,这些我不太了解,我们现在做的建模工作偏向统计分析,关心确诊数量、检测数量、死亡率、扩散速度等等。
我也看到中国国内很多科学家在做类似的分析工作,发了很多期刊文章,我觉得这些分析越早发出来越好,它可以帮助决策者更清晰地看到疫情的严重程度,提供一些可行的方案建议。
通过这次疫情,我感受到及时公布数据的重要性,尽管不断攀升的数字看起来很恐怖,但是可能会起到让你待在家里不要出门的作用,这对阻断传染病传播是最有效的办法。
除此之外,确保这些数据的准确、尽快对疫情走势作出判断也非常重要。现在美国的疫情已经很严重了(记者注:截至发稿时间,JHU数据图显示美国确诊数量已是全球第一,超过27万),我们会根据我们的数据和模型来判断,美国政府实行的这些social distancing等隔离政策是否有效,疫情拐点会在哪个时刻到来。
订阅南方周末会员,支持原创优质内容。成为南周会员,尊享七大权益,在一起,读懂中国。
南方周末记者 黄思卓