机器之心报道
参与:张倩、泽南、蛋酱
维基百科上的词条内容,可能会被人修改并谋取私利,而且这一情况就发生在 AI 学术圈。
「遇事不决先谷歌」已经是现在很多人查找信息的标准起手了。如果搜索一个词条,百科网站的结果通常会被显示在最显眼的位置。这种人人皆可编辑的网站存储着海量信息,虽然可能不够严谨,但也被很多人作为重要的信息、知识来源。
不过,最近人工智能的研究者在维基百科上发现了不少「夹藏私货」的词条,比如 Reddit 网友发现的「SGD(随机梯度下降)」一词。
这位发帖者表示,ta 本来打算读一些关于梯度下降的资料,但却发现维基百科有关这一主题的词条就像一条广告。
为什么这么说呢?我们先来看一下这个词条的结构。除了常规的背景、示例、应用等介绍外,词条还包含 SGD 的「扩展和变体」,这部分列出了 RMSProp、Adam 等知名算法和一些「二阶方法」。
「SGD」词条的结构。上图为历史版本,新版本不包含图中的 5.7。历史版本链接:https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=945132087
问题就出在这部分「扩展和变体」。要按说,能和 RMSProp、Adam 并列,这里列出的方法肯定都不差。但发帖者却发现,这部分包含了一篇比较冷门的论文(上图中的 5.7),文中提到了一种基于 Kalman 的随机梯度方法。
词条历史版本中对上述方法的介绍。
上文中提到的论文。数据来源:Google Scholar。
这是一篇 2016 年的论文,被引用量只有 22 次。要知道,与其并列的 Adam 在 Google Scholar 上的引用量高达 3 万 9 千多次。
这事儿就非常可疑了,于是他决定进一步挖掘信息。这是一篇 2017 年 2 月添加的文章,被添加进词条的时候,该论文的引用量似乎是 0,添加者是一位用户名为「Vp314」的用户。凑巧的是,论文作者的 gmail 用户名也是「Vp314」。
而且,这位用户对「SGD」词条的唯一贡献就是添加他的这项技术:第一次是将「Kalman-based Stochastic Gradient Descent」添加到「扩展和变体」;第二次是稍加改动;第三次是被删除之后重新添加,被删的理由是「最近几乎没有被学术界引用。」「这个词条出现在维基百科上使其看起来像是一种成熟的技术,但其实并不是。」
「梯度下降」这种概念在机器学习领域肯定是必须要懂的知识,修改这个词条颇有点修改教科书的意味。更令人担心的是,这很可能仅仅是被个别研究员/学者恶意修改内容的一小部分。
机器学习领域自我宣传的竞争已经到了这样的程度,不禁令人感叹。
其实在维基百科上,还有很多类似的奇葩操作,或许只是我们都没发现。
比如有一位留言者回忆起自己读大学的时候,他的室友成功编辑了维基百科词条,说自己是网球的发明者。在这之后,有一些文章和书籍在援引材料时,就真的将此人视为网球发明者……
当然,这种恶作剧并未给篡改者本人带来直接利益,更多的人或者机构会利用词条来获取商业利益。
「如果你对维基百科足够了解,就会发现这里面充满了政治、个人偏见、SEO 内容、学术广告等等。相比其他,IT 领域的词条内容质量还算可以的,因为这个领域的人都精通计算机(emmm 这么说好像上世纪 90 年代的说法),他们一般都会检查来源或者屏蔽垃圾内容。但是其他科学领域的词条会更糟糕,充斥着大量的无用内容。」
这位留言者认为,在事实正确性和清晰度方面,维基百科甚至还不如高中教科书,更不能和正规的百科书籍相提并论。
早在 2005 年,《Nature》就曾对维基百科和代表传统百科全书的《大英百科全书》各自全书间的 41 篇科学内容做过调查,最后得出结论,在科学文章这一领域,维基百科与《大英百科全书》有着相似的精确度,但两者在内容上都有一定程度上的「严重缺失」。但至少,《大英百科全书》无法让任意一个人「自由编辑」。
有一位留言者提到,他最近听说了一种针对维基百科词条优化的「收费服务」,费用大概是 600 美元或者更多,可能让你拥有、撰写维基百科的词条,同时及时修改其他任何人所做的编辑。你甚至可以利用这项服务撰写支持或反对某个人/观点/机构的文章,然后发布相关报道和文章作为参考来源。
这类事情在其他领域也经常发生,一位留言者是信号处理领域的研究者,他指出,很多页面上的参考文献和方法都不是最新技术,并且内容也时常出错。如果运气好,你可能还会尴尬偶遇自己的同事在维基百科上「自吹自擂」。
他还提到了一个不算 ML 领域但也很有意思的事,2007 年的 Asilomar 大会上,他遇见了 James D. Johnston,James 曾经担任微软音频工程师,此前在 AT&T 贝尔实验室声学研究部工作过。
当时 James 在会上发表了一篇标题为《感知音频编码的发展史及时间线》的正式论文。James 说他写这篇论文的起因,其实是因为维基百科页面的错误。每次 James 试图更正维基百科页面的时候,都会被问「您对此了解多少?」,然后每次都会被拒。
目前,在维基百科上共有超过 110 万个词条。除学者之外,很多公司和组织都有投入资金和精力在维基百科上编辑对自己有利信息的情况。虽然从长远来看,人们总是会倾向于阅读真正有价值的内容,但代表特定利益的内容总是令人难以接受的,而且有时候它们还会停留在网页上很长一段时间。
看来在查找重要内容的时候,我们还需要更加严谨,至少要使用不同的信息来源进行一些对比。在这方面,你有更好的方法吗?
参考链接:
https://www.reddit.com/r/MachineLearning/comments/fhveru/d_researcherprofessor_possibly_using_wikipedia/
本文为机器之心报道,转载请联系本公众号获得授权。
------------------------------------------------