关于ZAKER 融媒体解决方案 合作 加入

RoBERTa 在 SuperGLUE 得分逼近人类,甩 baseline 十多个点

大数据文摘出品

作者:宁静、曹培信

7 月 30 日,文摘菌曾报道过,被谷歌 XLNet 全面刷爆的 BERT,被 Facebook 升级后,变身 "Robustly optimized BERT approach" ——强力优化 BERT 方法,重新称霸 GLUE、SQuAD 和 RACE 三个排行榜。

在 RACE 测试集上的结果显示,RoBERTa 的 Accyracy 相比 BERT ( large ) 提高了 10 个百分点,相比 XLNet ( large ) 提高了 2 个百分点。

现在,Facebook AI 又将 RoBERTa 提交到了 SuperGLUE,榜单显示 RoBERTa 已经领先 Bert 15 个百分点,表现直逼人类。

从 GLUE 到 SuperGLUE:难度更大

SuperGLUE 在 GLUE 设计的基础上,采用了一系列更加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外,还添加了常识推理和词义消除等任务,上表中给出的其他测试数据集包括:

CB 短文本语料库

MultiRC 真假问答任务数据集

COPA 因果推理

WiC 词义消岐

RoBERTa 离人类还有多远

从 SuperGLUE 排行榜上看,RoBERTa 的得分距离人类只有 5.2 分,但是 NYU 数据科学中心助理教授 Sam Bowman 在其推特上,关于这一排行榜 RoBERTa 直逼人类的表现也发表了看法。

SuperGLUE 代表的是我们需要处理的 35 个任务中最难的几个。而对于 35 个中的大多任务,BERT 本身的性能就已经快接近极限了。

还有几点需要注意 :

RoBERTa 良好的表现很大程度受益于充足的数据集:ReCoRD 和 MultiRC。效果转移到数据不佳的任务比较困难。

WinoGender coref.accuracy 表现较好,但代价是 gender parity 更差。

RTE 模型在 downward monotone inferences 仍然表现较差:例如,它倾向于假设 " 所有的狗都喜欢抓它们的耳朵 "。" 所有动物都喜欢搔耳朵。"

Sam Bowman 认为,他对觉得 RoBERTa 有个明显的天花板,而我们对于人类表现有一个比较低的估计,他敢打赌,接下来的 5 到 10 个百分点将变得相当难以突破。

让我们期待通过算力数据以及大模型(Transformer),人类到底能够将 NLP 推到什么程度吧!

实习 / 全职编辑记者招聘 ing

加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京 · 清华东门,在大数据文摘主页对话页回复" 招聘 "了解详情。简历请直接发送至 zz@bigdatadigest.cn

点「在看」的人都变好看了哦

以上内容由"大数据文摘"上传发布 查看原文
相关标签 大数据facebook

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享