导读:3月11日外媒消息,Google近日发布了一个名为Wikilinks Corpus的大数据集合,它将可以帮助开发人员构建出可以准确解释人类语言的软件。Google表示,Wikilinks Corpus的规模要比以往的数据集合都要大,更重要的是,它是免费的。 谷歌发布Wikilinks Corpus大数...
3月11日外媒消息,Google近日发布了一个名为Wikilinks Corpus的大数据集合,它将可以帮助开发人员构建出可以准确解释人类语言的软件。Google表示,Wikilinks Corpus的规模要比以往的数据集合都要大,更重要的是,它是免费的。
Google在其Reaserch Blog中提出,人类非常擅长辨别同一个单词在不同语境下的意思。于是,Wikilinks Corpus网罗了包含来自各大网页及维基百科的4000多万条链接,它们的单元被称为mention,开发人员则可以通过分析每一条mention的内容以及目标链接的内容,进而确定一些模棱两可的单词究竟是什么意思。
谷歌发布Wikilinks Corpus大数据集合