关于ZAKER 免费视频剪辑 合作 加入
智东西 06-22

横扫 6 大 AI 榜单后,阿里将这一顶级语言 AI 开源

智东西(公众号:zhidxcom)

作者 | 心缘

编辑 | 漠影

智东西 6 月 22 日报道,今日,阿里巴巴达摩院正式宣布已开源预训练语言模型体系 AliceMind。

日均调用量超过 50 亿次、活跃场景超过 200 个、登顶六大 NLP 权威榜单,AliceMind 身上有许多荣耀的战绩,并入选了 2021 年世界人工智能大会最高奖项 SAIL 奖 TOP30 榜单。

作为阿里的语言技术底座,AliceMind 正在让机器学会说 " 人话 " 的道路上一路快跑。

达摩院深度语言模型团队负责人黄松芳告诉智东西,AliceMind 生态体系完整,能力全面,希望通过开源,推动 NLP 行业研究突破和应用创新。

开源地址:https://github.com/alibaba/AliceMind/

一、历史三年研发,登顶 6 大 AI 权威榜单

让机器拥有语言能力,学会像人类一样理解学习甚至对话输出,如何实现?

长期以来,自然语言处理(NLP)研究一直在探索这样的方向。传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用,犹如手工作坊,但随着预训练语言模型兴起,这些难点正被击破。

2018 年底,谷歌推出在 NLP 领域具有里程碑意义的预训练模型 BERT,这一模型提出了一种全新的技术范式,用大量无标记语料数据进行预训练,显著提高了语言模型的准确率。

在 BERT 的基础上,达摩院团队提出优化的结构化预训练模型 StructBERT,让机器更好地掌握人类语法,理解自然语言。

由阿里巴巴达摩院历经三年研发的 AliceMind 模型体系,即是以 StructBERT 为核心,拓展到多语言、生成式、多模态、结构化、知识驱动等领域,将跨语种、多模态的信息打通。

▲ AliceMind 体系内的模型登顶六大 NLP 榜单

截至 5 月,AliceMind 体系内的主要工作已登顶 GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 等六大 NLP 权威榜单。

其中的多语言、多模态、结构化预训练三个模型均被国际学术顶会 ACL 2021 录取。

6 月 19 日,AliceMind 体系中的多模态模型 StructVBERT,再次登顶多模态权威榜单 VQA Challenge 2021。

这个比赛类似看图问答,给定一张图像和关于图像的自然语言问题,AI 需要提供准确的自然语言答案。AliceMind 战胜了微软、Facebook 等几十家国际顶尖团队,将纪录从去年第一的 76.36% 显著提升到超过 79%,接近人类水平(80.78%)。

▲ AliceMind 登顶 VQA Challenge 2021 榜单

除了上述 6 种模型外,AliceMind 模型体系还包括超大模型 PLUG、知识驱动 LatticeBERT 等模型。

中文预训练模型 PLUG 在两个月前刚刚发布,因为高达 270 亿的超大规模参数,在业界猛刷了一把存在感。黄松芳透露道,PLUG 开源目前正在规划中。

目前 AliceMind 已上线到内部平台,开箱即用,支持继续训练、精调、蒸馏、测试、部署五大功能,只需简单操作,即可完成语言模型从训练到部署的完整链路。

▲ AiNLP 管控台

二、已落地数十个应用,助推 AI 进入大工业时代

开源 AliceMind,会带来哪些好处?

达摩院深度语言模型团队负责人黄松芳告诉我们,对于阿里而言,语言模型的落地应用是一个系统工程,不是一个企业能做成的。

因此,通过开源,阿里希望和社区一起来推动语言模型的落地,也在这个过程中,进一步完善和提升 AliceMind。

对于外部来说,AliceMind 开源降低业界研究和创新应用的门槛,助推语言 AI 进入大工业时代。

外部开发者可以基于此,快速地搭建智能的 NLP 引擎,大大降低对于人工标注数据的依赖,也降低了 AI 从业者的入门门槛。

更重要的是,这将能够大幅提升改善或者超过传统机器学习方法效果。

如果用炼钢来类比,以前训练一个 NLP 模型,得从铁矿石开始炼钢,周期长,费用高,产量低。

而开源预训练语言模型的好处在于,已经给你提供了现成的粗钢,你需要做的,只是将粗钢炼成所需的特定钢材,这使得开发效率大为提升。

此前,AliceMind 已具备阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力,落地于跨境电商、客服、广告等数十个核心业务应用。

▲ AliceMind 诗词生成示例

以云小蜜智能客服场景为例,StructBERT 和 PALM 等模型被深度运用于 FAQ 匹配、QA 挖掘和 Paraphrase 数据增强等业务,其中匹配模型帮助将政务行业 top1 准确率提升 2.9%,并支持了疫情问答在九个地市机器人上线应用。

在阿里之外,AliceMind 还被应用于医疗、能源、金融等多个行业。

比如,在电力能源领域,浙江电网公司以 AliceMind 为底座为员工构建了智能化运维平台,应用于变压器检修、供电抢修等业务,已开始在国家电网公司统一推广。

再比如,AliceMind 在阿里云医疗行业应用于病历质检和健康档案产品,落地几十家医院。

而在 AliceMind 开源后,它将进一步推动语言 AI 走向可规模化复制的大工业时代。

AliceMind 官网:https://nlp.aliyun.com/portal#/alice

三、体系内的不同模型:各有侧重,理念共通

总体来看,AliceMind 具有覆盖模型全面、技术领先、开放普惠的特点,它将围绕 " 预训练 + 精调" 语言模型持续进行生态性的技术开源。

在 " 预训练 " 阶段,模型从大规模文本中学习到词与词的搭配关系,及句子之间的上下文关系等语言通用知识。

然后,在进一步的自学习过程中,模型掌握到特定领域任务的特定知识,从而在大量的上下游任务中达到更好的性能。

▲ AliceMind 深度语言模型体系

黄松芳告诉智东西,AliceMind 体系内的模型既各有侧重,同时创新理念上有共通之处。

各有侧重是指 AliceMind 在围绕语言理解(NLU)和语言生成(NLG)上,分别延伸扩展。

围绕语言理解(NLU),团队提出 " 纯文本 " 理解模型 StructBERT、" 图文混合 " 理解模型 StructVBERT、以及 " 文本表格 " 理解模型 Structural-LM。

围绕语言生成(NLG),团队先提出能进行文本生成的单语言生成模型 PALM,继而扩展到可以处理多种语言的多语言生成模型 VECO,最后是今年 4 月已实现百亿参数的超大模型 PLUG,其规模正在进一步提升。

创新理念上有共通之处则体现在于,比如 StructBERT、StructVBERT 和 Structural-LM 均是充分挖掘文本、图像、表格的 " 结构 " 信息,而 PLUG 则联合了语言理解模型 StructBERT 和语言生成模型 PALM。

四、AliceMind 体系中的 8 处创新

具体到 AliceMind 体系内的各个模型,它们分别有一些创新之处。

1、通用语言模型(StructBERT)

StructBERT 通过在句子和词级别引入两个新的目标函数,好比给 AI 装上 " 语法识别器 "。

在面对语序错乱或不符合语法习惯的词句时,AI 依然能准确理解并给出正确回应,大大提高机器对语言的整体理解力。

该模型去年多次在自然语言处理领域顶级赛事 GLUE Benchmark 上夺冠。

2、多语言语言模型(VECO)

跨语言预训练初衷是为多种语言建立起一个统一联合的语义表示,AliceMind 体系内的跨语言预训练模型 VECO 一经提出,便在国际权威多语言榜单 XTREME 排名第一,远超 Facebook、Microsoft 等业界代表性模型。

VECO 目前支持 100 种语言的理解和生成任务。其出色表现主要源于两项创新:一是其可以更加 " 显式 " 得进行跨语言信息的建模(图 1);二是 VECO 在预训练的过程充分学习用于 NLU 和生成 NLG 任务,并让二者互相学习提高彼此(图 2)。

据悉,VECO 模型是多语言领域内的第一个同时在多语言理解(NLU)和语言生成(NLG)任务上均取得业内最佳效果的模型,已被顶会 ACL2021 录用。

3、生成式语言模型(PALM)

PALM 模型可被用于问答生成、文本复述、回复生成、文本摘要、Data-to-Text 等生成应用。

与之前生成模型的预训练方式不同,该模型将预测后续文本作为其预训练目标,而非重构输入文本。它在一个模型中使用自编码方式来编码输入文本,同时使用自回归方式来生成后续文本。

这种预测后续文本的预训练,促使该模型提高对输入文本的理解能力,从而在下游的各个语言生成(NLG)任务上取得更好的效果。

该模型在 MARCO NLG 自然语言生成公开评测上取得第一,并在摘要生成标准数据集 CNN/DailyMail 和 Gigaword 上超过了现有的各个预训练生成语言模型。

4、结构化语言模型(StructuralLM)

StructuralLM 在语言模型 StructBERT 的基础上扩展到结构化语言模型,充分利用图片文档数据的 2D 位置信息,并引入 box 位置预测的预训练任务,帮助模型感知图片不同位置间词语的关系,这对于理解真实场景中的图片文档十分重要。

Structural LM 模型在 DocVQA 榜单上排名第一,在表单理解 FUNSD 数据集和文档图片分类 RVL-CDIP 数据集上也超过现有的所有预训练模型。

5、多模态语言模型(StructVBERT)

StructVBERT 是在通用的 StructBERT 模型基础上,同时引入文本和图像模态,在统一的多模态语义空间进行联合建模,在单流架构的基础上同时引入图像 - 文本描述数据和图像问答数据进行多任务预训练,并在多尺度的图像特征上进行分阶段预训练。

此外,模型利用 attention mask 矩阵控制实现双流架构,从而提升跨模态双流建模能力,结合单流、双流结构的优点进一步提升模型对文本和图像两个模态的理解能力。相关文章已被顶会 ACL2021 录用。

6、机器阅读理解模型(UED)

自最开始声名大噪的 SQuAD 榜单起,阿里围绕着机器阅读理解发展路线:单段落抽取 ->多文档抽取 / 检索 ->多文档生成 ->开放式阅读理解,拿下了一系列的榜单冠军。

其 UED 曾于 2018 年在单段落机器阅读理解领域顶级赛事 SQuAD 上首次超出人类回答精准率;同年在多文档机器阅读理解权威比赛 TriviaQA 和 DuReader 上双双刷新第一名纪录。

2019 年,该模型在信息检索国际顶级评测 TREC 2019 Deep Learning Track 上的段落检索和文档检索任务上均取得第一名;在机器阅读理解顶级赛事 MS MARCO 的段落排序、多文档答案抽取以及多文档答案生成 3 个任务均取得第一名,并在多文档答案抽取任务上首次超越人类水平。

7、超大规模中文理解和生成统一模型(PLUG)

PLUG 是目前中文社区已开放 API 的最大规模的纯文本预训练语言模型,集语言理解与生成能力于一身,今年 4 月其参数规模已达到 270 亿。

PLUG 可为目标任务做针对性优化,通过利用下游训练数据微调(finetune)模型,使其在该特定任务上生成质量达到最优,弥补之前其它大规模生成模型小样本推理(few-shot inference)的生成效果不足,适于应用在实际生成任务。

同时,PLUG 采用 encoder-decoder 的双向建模方式,因此在传统的 zero-shot 生成的表现上,无论是生成的多样性、领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。

8、知识驱动的语言模型 LatticeBERT

LatticeBERT 在预训练模型中训练中有效地融合了词典等知识,能同时建模字和词的结构,来线性化地表示这种混合粒度的输入。

第一步是将涵盖多粒度字词信息的中文文本用词格(Lattice)表示起来,再把这个词格线性化作为 BERT 的输入。

该模型在 2020 年 9 月取得中文予以理解评估基准 CLUE 榜单 base 模型的第一名。

结语:打通 AI 模型到产业的最后一公里

黄松芳说,AliceMind 团队的重点任务将是围绕如何将预训练模型(甚至是超大预训练模型)有效落地,打通 AI 模型到产业的最后一公里。

后续,团队将开源改进版本的多模态模型 E2E-VLP(端到端 Pixel 预训练),并会开源将预训练模型落地到实际业务场景的有效方案,如小样本场景的微调技巧、针对大模型的压缩蒸馏加速等算法、如何融合行业知识等,从而进一步降低 NLP 领域研究和应用创新的门槛。

以上内容由"智东西"上传发布 查看原文
一起剪

一起剪

ZAKER旗下免费视频剪辑工具

一起剪