阿里通义实验室发布 FIPO 算法 ,32B 模型推理性能反超 o1-mini

阿里通义实验室智能计算团队今日正式对外发布了大模型后训练领域的新型算法——FIPO（Future-KL Influenced Policy Optimization）。该算法通过引入创新的 "Future-KL" 机制，有效解决了纯强化学习（Pure RL）训练过程中普遍存在的 " 推理长度停滞 " 技术瓶颈。

在长文本推理与复杂逻辑对齐的训练中，传统强化学习往往难以精准捕捉长序列中的关键决策点。通义团队开发的 FIPO 算法通过对关键 Token 实施差异化奖励分配，引导模型在思维链（CoT）生成过程中更具前瞻性。

实验数据显示，在 32B 规模模型的纯强化学习设定下，搭载 FIPO 算法的模型性能已率先超越同规模的 DeepSeek-Zero-MATH 以及 OpenAI 的 o1-mini，标志着国产大模型在逻辑推理与数学计算能力上取得了实质性进展。

当前，大模型竞争的重心正从预训练规模转向推理端的深度对齐。FIPO 算法的推出，不仅为解决逻辑推理模型中 " 思考过程 " 的质量评估提供了新思路，也预示着开源社区与国产头部实验室在追赶全球顶尖推理模型过程中，正逐步构建起独立的技术演进路径。

东航MU6113突遇雷暴：盘旋数圈终安全降落！乘客：感谢中国机长带我回家

快科技昨天

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

阿里通义实验室发布 FIPO 算法 ,32B 模型推理性能反超 o1-mini

宙世代

一起剪

相关阅读

“AI搭子”不能乱陪了！新规要求先哄再联系监护人：违规罚20万

53条航线全部取消！整个3月中日航班取消率为49.6%

霍尔木兹海峡仍处于极度险境，两只可能从中受益的油田服务类股票

女子被地铁挡水板绊倒受伤索赔27万 法院一审二审均驳回

东航MU6113突遇雷暴：盘旋数圈终安全降落！乘客：感谢中国机长带我回家

标注AI生成绝非免责条款！网民造谣立交桥倒塌被拘6天

两高划定机闹入刑红线 飞机上打架可能坐牢

伊朗代表团飞机上，还有这几个飞行同伴

桑切斯今起访华，西班牙的外交“转弯”是什么信号？

伊朗议长、外长抵达伊斯兰堡，谈判首日日程披露

Lucy Liu为一只Birkin跟Kim Cattrall＂干

逐玉：樊长玉寻妹军营偶遇陶太傅，谢征斗法水坝藏生死之秘！

车主称修车被误诊致多花900美元，要求退款并索要诊断记录

法拉利首款电动车因加速过快寻求NASA协助

八千里路云和月：直到妻子被玷污，张云魁才知，孟万福为何冒充他

最新评论

企业资讯

热门推荐

企业资讯

女子被地铁挡水板绊倒受伤索赔27万法院一审二审均驳回

两高划定机闹入刑红线飞机上打架可能坐牢