关于ZAKER 合作
雷锋网 前天

全球权威评测榜单 BIRD:蚂蚁数科超越谷歌等公司位居第一

9 月 26 日,据全球权威评测基准 BIRD-Bech 官网,蚂蚁数科的数据分析智能体 Agentar-SQL 超越 AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。

BIRD-Bench 是公认的全球最具权威性的自然语言转 SQL 评测基准,要求 AI 大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench 数据集覆盖金融、电力、医疗等 37 个行业场景,总量 33GB,包含超过 1 万条高复杂度查询任务,是全球顶级 AI 团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科 Agentar-SQL 在 BIRD 榜单的执行准确率排行榜(81.67 分)以及执行效率榜上(77 分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL 智能体基于蚂蚁数科的 SQL 大模型 Agentar-Scale-SQL 构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过 GSPO(组序列策略优化)强化学习训练方法,能够增强 SQL 内在推理,让大模型在推理阶段,深度思考 SQL 框架,避免潜在的逻辑错误,提升 SQL 逻辑准确性;此外,Agentar-SQL 具备多轮反思修正的能力,让模型对生成的 SQL 进行多轮次的审视和修正,提升 SQL 语言的精准性;Agentar-SQL 还通过独创的两阶段生成法,让大模型生成多个 SQL 候选,再对 SQL 进行两两 PK 的 " 锦标赛 ",筛选出最优的 SQL。

蚂蚁数科持续深耕 AI 大模型技术与应用,此前其自研的金融推理大模型 Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

相关标签
ai