关于ZAKER 免费视频剪辑 合作 加入

中国 AI 技术再次刷新 4 项世界纪录!

百度 AI 技术在国际技术比拼中再夺佳绩。在文档智能国际权威榜单文档视觉问答 DocVQA 任务中,百度 ERNIE-Layout 在 4 项文档理解任务上刷新世界最好效果,成为文档智能国际领域当之无愧的 "MVP"!

百度 ERNIE-Layout 登顶文档智能国际权威榜单 DocVQA

ERNIE-Layout,是一个基于文档布局知识增强的跨模态预训练模型。它看似高冷,但可能正在你的身边,帮你解决问题。比如报销过程中,ERNIE-Layout 可以自动、快速、准确地识别和提取票据中的关键信息,实现智能化的实时财务报销审核。

被 ERNIE-Layout 刷新记录的文档视觉问答 DocVQA,是一个跨模态的文档抽取任务评测,需要 AI 模型在抽取和理解文档中文本信息的同时,还能充分利用文档的布局、字体、颜色等视觉信息。简单来说,就是让 AI 看图回答一些 " 刁钻 " 问题。比如给 AI 一张图片,问它 " 手掌中的卡片上写了什么 "。AI 需要准确找到图像中的 " 手掌 " 并确定其中 " 卡片 " 的位置,进而结合文档中文字和布局的信息得到 "Trabon" 这一答案。

DocVQA 文档视觉问答示例

人类完成这些任务尚且需要一定时间找到文字位置、分辨字体字形,对 AI 而言就更有挑战性了。完成这项任务需要融合视觉解析、布局分析、语义理解、信息抽取等一系列技术,是一项综合能力的挑战。只有全面发展的 " 学霸 " 级 AI 才有可能在这项挑战中取得好成绩。

ERNIE-Layout 之所以能刷新 DocVQA 任务记录,一定程度上得益于它的技术基底——文心 ERNIE。文心 ERNIE 是百度自研的语义理解模型,自诞生一来,已经刷新数十个世界权威榜单记录、横扫多项业界大奖。此次,研究人员创新性地基于文心 ERNIE 推出布局知识增强技术,对文本、图像、布局等信息进行联合建模,真正缩小了 AI 在文档理解能力上与人类的差距,让它不仅能够『看清』、更能『看懂』图片上的文字。

除了登顶 DocVQA 之外,ERNIE-Layout 还在文档信息抽取权威榜单 SROIE 中夺冠,并在表单理解 FUNSD、票据理解 CORD 等多个公开数据集上取得了目前业界最好的效果,技术实力不断得到验证。

在技术上持续突破的同时,ERNIE-Layout 也已经集成在百度旗下的智能文档分析平台 TextMind 上,为银行、券商、法律、能源、传媒、通信、物流等众多行业,为企业的数字化、智能化转型提供 AI 技术助力。

比如,企业中的财务报销智能审核这个 " 硬需求 ",已经基于 ERNIE-Layout 有了成熟的解决方案,不同样式票据中的关键信息就能被自动、快速、准确地识别和提取,实现智能化的实时财务报销审核,解决人工审核带来的人力成本高、审核时间长等问题。数据显示,TextMind 提供的实时财务报销审核服务能为企业带来 5 倍以上的效率提升。

以上内容由"DaTa新商业"上传发布 查看原文
一起剪

一起剪

ZAKER旗下免费视频剪辑工具

一起剪

相关阅读

最新评论

没有更多评论了
DaTa新商业

DaTa新商业

关注科技财经,专业视角解读风口跌宕

订阅

觉得文章不错,微信扫描分享好友

扫码分享