关于ZAKER 融媒体解决方案 合作 加入

模仿人类逻辑,首个 BERT 模型 AI 通过初二科学考试!研究人员:完成了老板遗愿

大数据文摘出品

编译:啤酒泡泡、橡树 _Hiangsug

一只名叫亚里士多德的人工智能刚刚通过了美国八年级的科学测试,上周,这条新闻占据了美国多家新闻网站的首版。

美国八年级大概相当于国内初二,初二小朋友的科学测验有多难呢?

要回答这个问题,我们先来一起看两道美国八年级的科学测试多选题。

1、人体中能够协同完成某一项具体机能的组织被称为:

A.an organ

B.an organism

C.a system

D.a cell

2、以下哪一种变化最有可能导致某一区域的松鼠数量减少?

A. 捕食者的数量减少

B. 松鼠内部的竞争减少

C. 可获取的食物减少

D. 森林火灾数量的增加

很显然,这两道题分属两类不同类型。第一题属于知识点题,只要认真背过就能答得上来;第二道则属于逻辑推理题。

多数小朋友可能更愿意回答第二题这种逻辑推断的题目,但对于人工智能来说,情况可能恰恰相反。

人工智能做八年级卷子,选择题正确率超 90%

上周三,坐落于西雅图的著名实验室 " 艾伦人工智能研究所 " 全新发布了一款名为 " 亚里士多德(Aristo)" 的人工智能系统,它正确地回答了超过 90% 的八年级的科学测验题,并在十二年级的考试中获得了 80% 以上的准确率。

这款能够通过测试能力的人工智能表明,研究人员在几个月中便取得了巨大的进展,人工智能系统可以理解语言并能模拟人类的决策逻辑。

Aristo 的设定是只用来作答多项选择题。它参加了几场纽约考生的标准考试,只不过艾伦研究所去除了那些包含图片和图表的题目,回答这些问题需要额外的技能——将语言理解和计算机视觉逻辑相结合的能力。

有些测试问题只需要一些信息提取的能力,比如上文中的第一题,这种题目是人工智能擅长的。

然而科学测试不是那种只靠记住规则就能完成的事情,它需要使用逻辑来建立联系。比如第二题,森林火灾数量的增加会直接导致松鼠的死亡,或食物来源的减少使它们无法繁衍。人工智能需要理解这样的逻辑,才能回答正确这道题目。

其实在 Aristo 成功之前,AI 已经挂过无数次科。

2016 年,700 多名计算机科学家参加了一场设有 80,000 美金(折合人民币约 57 万元)的挑战赛,题目是 " 八年级科学测验 " ——不过答题人不是这些科学家,而是他们建立的人工智能系统。

结果出乎意料,考生全盘 " 挂科 ",就连最成熟的人工智能系统都无法答对超 60% 的题目,其语言水平和逻辑水平远远赶不上八年级的学生。

学霸 Aristo 的背后是 Bert

2016 年,当 AlphaGo 击败人类职业围棋选手李世石后,许多人认为人工智能的转折点来临。

然而,华盛顿大学前教授、现任艾伦人工智能研究所的技术总监的 Oren Etzioni 博士的兴奋之情很快平息了。他说,人工智能并没有它看上去那么先进。他提到了艾伦研究所之前参加的那场比赛,一个八年级的科学测试就难住了人工智能系统。

艾伦研究所迅速改良了之前的工作,着手于打造 Aristo,其速度超出了包括 Etzioni 博士在内的许多专家的预期。

Aristo 的应试能力来自于神经网络,近几年以来,世界顶尖的人工智能实验室,如 Google,Facebook 等企业的实验室都利用神经网络进行自然语言处理(NLP),它可以通过分析人类的文章和书籍来习得语言的复杂变化。

去年年底,谷歌 AI 团队发布了 BERT 模型,在机器阅读理解顶级水平测试 SQuAD1.1 中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在 11 种不同 NLP 测试中创出最佳成绩,包括将 GLUE 基准推至 80.4%,MultiNLI 准确度达到 86.7% 等。

BERT 的全称是 Bidirectional Encoder Representation from Transformers,即双向 Transformer 的 Encoder,模型的主要创新点在于模型的预训练,用 Masked LM 和 Next Sentence Prediction 两种方法分别捕捉语句的表述。

Bert 模型架构

Etzioni 博士很快就意识到,可以在 Bert 基础之上建立 Aristo 系统,他们利用 Bert 模型对覆盖面极广的问题和答案数据进行训练。

Aristo 根据题目的不同类型采用了八种类型的 agent 来回答问题——包括数据库中查找答案的 agent、检查相关概念列表的 agent、执行定性推理的 agent 等。

每个 agent 都会对多项选择答案产生正确与否的概率,而 Aristo 会对不同的选项的概率进行加权以选择最可能的一项或多项,该模型通过多轮训练和校准进行优化。

例如,有一个问题是:当块体熔化时,铁块中的铁原子是如何受到影响的?

A. 铁原子增加质量。

B. 铁原子含有较少的能量。

C. 铁原子移动得更频繁。

D. 铁原子体积增加。

为了回答这个问题,Aristo 先查找出 " 铁原子随着热量增加而运动加快 " 的知识,将术语 "融化" 与 "热量" 联系起来,将术语 " 快 " 与 "频繁" 联系起来,并将 C 评定为正确选择。

结合不同的解决问题的方法为 Aristo 将测试分数从 2016 年的大约 60%提高到今年的 91.6%扫清了道路。在 12 年级考试中,该模型得分率为 83.5%。

Aristo 不断提升的答题准确率

究竟是学霸还是学渣?能用就好!

部分科学家对 Aristo 取得的进展并没有抱以太大热情,他们认为机器离完全掌握自然语言还有很长一段路要走,更不用说真正像一个人类学生那样思考了。

" 我们不能拿这项技术和真正的学生以及他们的逻辑推理能力相比。" 已在微软参与多项类似技术研发的研究员 Jingjing Liu 讲道。

Liu 和她的微软同事曾尝试建立一个可以通过 GRE 考试的系统—— GRE 是美国研究生入学的必考测试。

Liu 表示,处理语言部分是可行的,但是建立可用于处理数学问题的逻辑推理能力就是另外一回事了。" 这实在是一项太有挑战性的工作了。"

但从商业角度来看,从互联网搜索引擎到医院的文档记录系统,Aristo 的这一进展将对很多产品和服务产生广泛影响。

根据纽约时报的报道,Etzioni 博士表示:" 这项技术会带来重要的商业成果。目前我能自信的说,你们将会看到这一进展带来的新一代产品,可能来自创业公司,也可能来自大公司。"

" 这项技术仍处于初级阶段,"Fast.ai 的技术总监 Jeremy Howard 说道," 但是其技术的潜能是无限的,我们离充分发掘这项技术的潜能还很遥远。"

OMT,Aristo 也是艾伦研究所创始人的遗愿

艾伦研究所命名自微软的联合创始人保罗艾伦 ( Paul Allen ) ,他在 2013 年成立了艾伦人工智能研究所,希望能够着手解决人工智能发展的重大问题。

把 " 八年级科学测验 " 作为题目的人工智能科学挑战赛,其实源自于这位西雅图亿万富翁的一个私心:他希望研究人员设计出一个足够聪明、能够通过八年级科学考试的人工智能程序。

自创立后,艾伦研究所的研究人员便一直致力于建造这只聪明的人工智能程序—— Aristo。

这不是一件容易的事,五年来研究者们尝试了无数次,但是一直没有达到艾伦希望的效果。

然而去年 10 月份,还没有来得及见证 Aristo 的诞生,享年 65 岁的艾伦去世了。

在不同的电子邮件中,Aristo 的作者 Etzioni 和 Clark 都对保罗 · 艾伦表示了敬意。当被问到这样的系统艾伦是否就可以满意的时候,两人都表示:" 不会。"

Etzioni 和 Clark 在艾伦人工智能研究所

" 保罗会非常高兴,但不会让我们满足于现有的荣誉,"Etzioni 说, " 他会问 :NLP 的下一个重要阶段是什么 ?"

" 我可以想象他会说‘恭喜你!但下一步是什么 ?"

相关报道:

https://www.nytimes.com/2019/09/04/technology/artificial-intelligence-aristo-passed-test.html

https://www.geekwire.com/2019/allen-institutes-aristo-ai-program-finally-passes-8th-grade-science-test/

实习 / 全职编辑记者招聘 ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京 · 清华东门,在大数据文摘主页对话页回复" 招聘 "了解详情。简历请直接发送至 zz@bigdatadigest.cn

志愿者介绍

后台回复" 志愿者 " 加入我们

点「在看」的人都变好看了哦!

以上内容由"大数据文摘"上传发布 查看原文

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享