模仿人类逻辑，首个BERT模型AI通过初二科学考试！-市场动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

模仿人类逻辑，首个BERT模型AI通过初二科学考试！

来源：互联网发布日期：2019-09-16 浏览：212次

导读：大数据文摘出品编译：啤酒泡泡、橡树_Hiangsug 一只名叫亚里士多德的人工智能刚刚通过了美国八年级的科学测试，上周，这条新闻占据了美国多家新闻网站的首版。美国八年级大概相当于国内初二，初二小朋友的科学测验有多难呢？要回答这个问题， ......

大数据文摘出品

编译：啤酒泡泡、橡树_Hiangsug

一只名叫亚里士多德的人工智能刚刚通过了美国八年级的科学测试，上周，这条新闻占据了美国多家新闻网站的首版。

美国八年级大概相当于国内初二，初二小朋友的科学测验有多难呢？

要回答这个问题，我们先来一起看两道美国八年级的科学测试多选题。

1、人体中能够协同完成某一项具体机能的组织被称为：

A.an organ

B.an organism

C.a system

D.a cell

2、以下哪一种变化最有可能导致某一区域的松鼠数量减少？

A.捕食者的数量减少

B.松鼠内部的竞争减少

C.可获取的食物减少

D.森林火灾数量的增加

很显然，这两道题分属两类不同类型。第一题属于知识点题，只要认真背过就能答得上来；第二道则属于逻辑推理题。

多数小朋友可能更愿意回答第二题这种逻辑推断的题目，但对于人工智能来说，情况可能恰恰相反。

人工智能做八年级卷子，选择题正确率超 90%

上周三，坐落于西雅图的著名实验室艾伦人工智能研究所全新发布了一款名为亚里士多德（Aristo）的人工智能系统，它正确地回答了超过 90% 的八年级的科学测验题，并在十二年级的考试中获得了 80% 以上的准确率。

这款能够通过测试能力的人工智能表明，研究人员在几个月中便取得了巨大的进展，人工智能系统可以理解语言并能模拟人类的决策逻辑。

Aristo 的设定是只用来作答多项选择题。它参加了几场纽约考生的标准考试，只不过艾伦研究所去除了那些包含图片和图表的题目，回答这些问题需要额外的技能将语言理解和计算机视觉逻辑相结合的能力。有些测试问题只需要一些信息提取的能力，比如上文中的第一题，这种题目是人工智能擅长的。

然而科学测试不是那种只靠记住规则就能完成的事情，它需要使用逻辑来建立联系。比如第二题，森林火灾数量的增加会直接导致松鼠的死亡，或食物来源的减少使它们无法繁衍。

人工智能需要理解这样的逻辑，才能回答正确这道题目。

其实在 Aristo 成功之前，AI 已经挂过无数次科。

2016 年，700 多名计算机科学家参加了一场设有 80,000 美金（折合人民币约 57 万元）的挑战赛，题目是八年级科学测验不过答题人不是这些科学家，而是他们建立的人工智能系统。

结果出乎意料，考生全盘挂科，就连最成熟的人工智能系统都无法答对超 60% 的题目，其语言水平和逻辑水平远远赶不上八年级的学生。

学霸 Aristo 的背后是 Bert

2016 年，当 AlphaGo 击败人类职业围棋选手李世石后，许多人认为人工智能的转折点来临。

然而，华盛顿大学前教授、现任艾伦人工智能研究所的技术总监的 Oren Etzioni 博士的兴奋之情很快平息了。他说，人工智能并没有它看上去那么先进。他提到了艾伦研究所之前参加的那场比赛，一个八年级的科学测试就难住了人工智能系统。

艾伦研究所迅速改良了之前的工作，着手于打造 Aristo，其速度超出了包括 Etzioni 博士在内的许多专家的预期。

Aristo 的应试能力来自于神经网络，近几年以来，世界顶尖的人工智能实验室，如 Google，Facebook 等企业的实验室都利用神经网络进行自然语言处理（NLP），它可以通过分析人类的文章和书籍来习得语言的复杂变化。

去年年底，谷歌 AI 团队发布了 BERT 模型，在机器阅读理解顶级水平测试 SQuAD1.1 中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在 11 种不同 NLP 测试中创出最佳成绩，包括将 GLUE 基准推至 80.4％，MultiNLI 准确度达到 86.7% 等。

BERT 的全称是 Bidirectional Encoder Representation from Transformers，即双向 Transformer 的 Encoder，模型的主要创新点在于模型的预训练，用 Masked LM 和 Next Sentence Prediction 两种方法分别捕捉语句的表述。

Bert 模型架构

Etzioni 博士很快就意识到，可以在 Bert 基础之上建立 Aristo 系统，他们利用 Bert 模型对覆盖面极广的问题和答案数据进行训练。

Aristo 根据题目的不同类型采用了八种类型的 agent 来回答问题包括数据库中查找答案的 agent、检查相关概念列表的 agent、执行定性推理的 agent 等。

每个 agent 都会对多项选择答案产生正确与否的概率，而 Aristo 会对不同的选项的概率进行加权以选择最可能的一项或多项，该模型通过多轮训练和校准进行优化。

例如，有一个问题是：当块体熔化时，铁块中的铁原子是如何受到影响的？

A.铁原子增加质量。

B.铁原子含有较少的能量。

C.铁原子移动得更频繁。

D.铁原子体积增加。

为了回答这个问题，Aristo 先查找出铁原子随着热量增加而运动加快的知识，将术语融化与热量联系起来，将术语快与频繁联系起来，并将C评定为正确选择。

结合不同的解决问题的方法为 Aristo 将测试分数从 2016 年的大约 60％提高到今年的 91.6％扫清了道路。

在 12 年级考试中，该模型得分率为 83.5％。

Aristo 不断提升的答题准确率

究竟是学霸还是学渣？能用就好！

部分科学家对 Aristo 取得的进展并没有抱以太大热情，他们认为机器离完全掌握自然语言还有很长一段路要走，更不用说真正像一个人类学生那样思考了。

我们不能拿这项技术和真正的学生以及他们的逻辑推理能力相比。已在微软参与多项类似技术研发的研究员 Jingjing Liu 讲道。

Liu 和她的微软同事曾尝试建立一个可以通过 GRE 考试的系统 GRE 是美国研究生入学的必考测试。

Liu 表示，处理语言部分是可行的，但是建立可用于处理数学问题的逻辑推理能力就是另外一回事了。这实在是一项太有挑战性的工作了。但从商业角度来看，从互联网搜索引擎到医院的文档记录系统，Aristo 的这一进展将对很多产品和服务产生广泛影响。

根据纽约时报的报道，Etzioni 博士表示：这项技术会带来重要的商业成果。

目前我能自信的说，你们将会看到这一进展带来的新一代产品，可能来自创业公司，也可能来自大公司。这项技术仍处于初级阶段， Fast.ai 的技术总监 Jeremy Howard 说道，但是其技术的潜能是无限的，我们离充分发掘这项技术的潜能还很遥远。

OMT，Aristo 也是艾伦研究所创始人的遗愿

艾伦研究所命名自微软的联合创始人保罗艾伦(Paul Allen)，他在 2013 年成立了艾伦人工智能研究所，希望能够着手解决人工智能发展的重大问题。

把八年级科学测验作为题目的人工智能科学挑战赛，其实源自于这位西雅图亿万富翁的一个私心：他希望研究人员设计出一个足够聪明、能够通过八年级科学考试的人工智能程序。

自创立后，艾伦研究所的研究人员便一直致力于建造这只聪明的人工智能程序 Aristo。这不是一件容易的事，五年来研究者们尝试了无数次，但是一直没有达到艾伦希望的效果。

然而去年 10 月份，还没有来得及见证 Aristo 的诞生，享年 65 岁的艾伦去世了。在不同的电子邮件中，Aristo 的作者 Etzioni 和 Clark 都对保罗艾伦表示了敬意。当被问到这样的系统艾伦是否就可以满意的时候，两人都表示：不会。

Etzioni 和 Clark 在艾伦人工智能研究所

保罗会非常高兴，但不会让我们满足于现有的荣誉， Etzioni 说，他会问:NLP 的下一个重要阶段是什么? 我可以想象他会说恭喜你！但下一步是什么?

相关热词：

模仿人类逻辑，首个BERT模型AI通过初二科学考试！
来源：互联网发布日期：2019-09-16 浏览：212次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

模仿人类逻辑，首个BERT模型AI通过初二科学考试！ 来源：互联网 发布日期：2019-09-16 浏览：212次