机器之心整理
参与:一鸣
本周有许多非常重要的研究值得关注,如清华大学等提出的通用人工智能芯片,Facebook 提出的非侵入式脑机接口,还有 ACL 2019 最佳长、短论文等。干货满满,欢迎读者朋友阅读。
目录:
Towards artificial general intelligence with hypid Tianjic chip architecture
Real-time decoding of question-and-answer speech dialogue using human cortical activity
RoBERTa: A Robustly Optimized BERT Pretraining Approach
Bridging the Gap between Training and Inference for Neural Machine Translation
Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment
ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks
1. 标题:Towards artificial general intelligence with hypid Tianjic chip architecture
摘要:现阶段,发展人工通用智能的方法主要有两种:一种是以神经科学为基础,无限模拟人类大脑;另一种是以计算机科学为导向,让计算机运行机器学习算法。实现人工通用智能的最终目标是让两者结合,但由于两套系统使用的平台各不相同且互不兼容,极大地限制了人工通用智能的发展。论文中,研究者研发了一款融合了上述两种方法的电子芯片。他们的混合芯片有多个高度可重构的功能性核,可以同时支持机器学习算法和类脑电路。作者用一个无人自行车系统验证了这一混合芯片的处理能力。试验中,无人自行车不仅可以识别语音指令、实现自平衡控制,还能对前方行人进行探测和跟踪,并自动避障。作者认为,这项研究或能为人工通用智能平台的进一步发展起到促进作用。
推荐:八月份的 Nature 封面文章,论文提出的一种融合了脉冲神经网络和人工神经网络的基础硬件架构,有效推动了通用人工智能研究。论文作者来自清华大学、新加坡国立大学等,研究阵容豪华。
8 月份的「Nature」封面。
2. 标题:Real-time decoding of question-and-answer speech dialogue using human cortical activity
摘要:Facebook 与加州大学旧金山分校(UCSF)发布了有关脑机接口研究的最新进展,研究关于构建非侵入式可穿戴设备,让人们只需通过想象要说的话即可完成「打字」动作。这项研究证明了人们在对话时大脑产生的活动可以实时解码为电脑屏幕上的文字而在此之前,这样的工作都是离线完成的,实时「翻译」文字是脑机接口研究领域的第一次。研究人员表示,他们的算法目前为止还只能识别一小部分单词和短语,但正在进行的工作旨在翻译更多词汇,并大幅降低识别错误率。
推荐:这也是「Nature」的一篇论文。这项对标马斯克 Neuralink 的工作提出了新颖的脑机研究思路。根据报道,Facebook 打算以此为基础开发 VR 眼镜。
该型脑机接口的实现图示。
3. 标题:RoBERTa: A Robustly Optimized BERT Pretraining Approach
作者:Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov
论文链接:https://arxiv.org/pdf/1907.11692.pdf
实现链接:https://github.com/pytorch/fairseq/tree/master/examples/roberta
摘要:RoBERTa 的全名为 Robustly Optimized BERT pretraining Approach。Facebook 的研究人员采用了 BERT-Large,并通过更多的数据与更长的训练来提升预训练过程,最终的结果通过模型集成获得。前段时间,RoBERTa 打败 XLNet 登上了 GLUE 排行榜榜首。
推荐:最佳预训练语言模型的头衔花落谁家?看数据量和训练时长吧!
随着 RoBERTa 模型的训练数据量和时长增加,效果也变得更好了。
4. 标题:Bridging the Gap between Training and Inference for Neural Machine Translation
作者:Wen Zhang、Yang Feng、Fandong Meng、Di You、Qun Liu
论文链接:https://arxiv.org/pdf/1906.02448
摘要:在训练时,神经机器翻译(NMT)利用 ground truth 词作为预测时的上下文,推理时则必须从头生成整个句子。这种带不带标注上下文的差异导致误差的累积。此外,单词级别的训练要求生成的序列与 ground truth 序列严格匹配,这导致模型对不同但合理的翻译进行过校正。
在本文中,研究者不仅从 ground truth,还从模型在训练中预测的序列采样上下文单词,并选择句子级别的最优预测序列来解决这些问题,其中预测语句是句子级别的最优选择。也就是说,翻译模型不再逐词对比标注而确定损失函数,它会考虑同一句话不同的译法。
推荐:这篇是 ACL 2019 最佳长论文,提出了新的机器翻译方法。作者来自中科院等机构。
5. 标题:Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment
作者:Nanjiang Jiang、Marie-Catherine de Marneffe
论文链接:https://www.aclweb.org/anthology/P19-1412
摘要:推断说话者承诺(又称为事件事实)对信息提取和问答非常重要。在这篇论文中,研究者通过在挑战性的自然数据集上分析模型误差的语言学相关性,从而探索语言学缺陷驱动说话人承诺模型错误模式的假设。
研究者在 CommitmentBank 数据集上评估了两个 SOTA 的说话人承诺模型(speaker commitment model)。他们发现获取语言学信息的模型要优于基于 LSTM 的模型,这表明我们需要语言学知识来捕捉具有挑战性的自然数据。研究者表示按语言学特征划分的 item 揭示了不对称的错误模式:虽然模型在某些类别上取得了很好的表现,但它们无法泛化到自然语言中的各种语言学结构,例如条件句。
推荐:这篇是 ACL 2019 最佳短论文,论文说明了语言学规则(先验)对说话者承诺任务的重要影响,值得语言学或 NLP 研究背景的读者了解。
说话者承诺任务使用的数据集。
基于规则的、线性的、树结构的和混合模型的 Pearson r 分数和绝对平均误(Mean Absolute Error)分数。对比结果显示,基于语言学规则的模型比 bi-lstm(Hypid)模型表现更好。
6. 标题:ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
作者:Yu Sun、Shuohuan Wang、Yukun Li、Shikun Feng、Hao Tian、Hua Wu、Haifeng Wang
论文链接:https://arxiv.org/pdf/1907.12412v1.pdf
摘要:近两年,以 BERT、XLNet、ERNIE 1.0 为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。
百度研究者发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT 通过掩码语言模型和下一句预测任务进行预训练。XLNet 构建了全排列的语言模型,并通过自回归的方式进行预训练。
然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。那么如果持续地学习各类任务,模型的效果能否进一步提升?这就是 ERNIE 2.0 希望探索的。
推荐:尽管 XLNet 等预训练语言模型取得了很好的效果,但中文语境缺乏相关模型。百度推出的 ERNIE 模型填补了这个空缺。现在 ERNIE 已进入第二代,依然是中文语境中效果最佳的预训练语言模型。
ERNIE 2.0 模型的结构示意。
7. 标题:DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks
作者:Lin Zehui、Pengfei Liu、Luyao Huang、Junkun Chen、Xipeng Qiu、Xuanjing Huang
论文链接:https://arxiv.org/pdf/1907.11065
摘要:变体 dropout 方法设计用于神经网络中的全连接层、卷积层和循环层,同时被证明可以有效地避免过拟合。作为循环和卷积层的一种良好替代选择,全连接自注意力层却缺少特定的 dropout 方法。本文旨在探索正则化 Transformer 中注意力权重的可能性,从而阻止不同的情景化特征向量出现互适应(co-adaption)。在一系列任务上的实验表明,DropAttention 可以提升性能,减弱过拟合。
推荐:复旦大学提出专门针对注意力层的 Dropout 方法,值得参考研究。