全球人工智能与机器人峰会CCF-GAIR大会上,北京大学计算机科学技术研究所研究员万小军分享了主题为《机器写稿技术与应用》的演讲。万小军分享了机器写稿的背景和现状,对于未来,他认为机器写稿不光是在媒体行业,也会跟一些游戏行业和情报行业合作。不过,他认为让机器学会推理和归纳,写出真正的深度报道是最难的,但这也是下一步研究的目标。
万小军表示已经有三家著名的提供机器写稿技术的公司,包括ARRIA、AI、 NARRATIVESCIENCE,为美联社等多家知名媒体写了数千万篇稿件。随着人工智能技术的发展,国内的机器写稿也逐渐受到关注,有很多的媒体在和一些学术机构进行合作,推出一些写稿机器人;另外是互联网巨头,包括微软、百度也在研发机器写稿技术。写稿的内容主要侧重在体育、财经、民生领域。
机器写稿有两种方式,一种是原创,一种是二次创作。原创一般是之前没有稿件,只有结构化的数据,我们可以借助结构化的数据去生成新的稿件。而关于一个已经有相关报道的事件,我们借助这些报道进行一些拼凑、改写成为新的稿件,这就是二次创作。
万小军表示,原创和二次创作所依赖的技术也是不太一样的:原创采用的是自然语言生成技术,是从结构化数据/意义表达生成自然语言语句。二次创作采用的是自动摘要技术,我们从已有的文字素材去给它摘要,把它生成一个新的稿件。这是两类非常关键的技术。
未来,机器人写稿将不光应用在媒体行业,一些游戏行业和情报行业也有机器写稿的需求。另外,除了对客观事实的描写,机器人写稿还有加入态度和立场,更加人性化。
最后也是最难的一点:就是让机器学会推理和归纳,写出真正的深度报道。万小军表示:“这是下一步要研究的目标,也是有可能去实现的一些目标。尤其是具有态度和立场,我觉得应该在未来两三年是可以去实现的。”