关于ZAKER 合作
AIbase基地 04-08

阿里通义实验室发布 FIPO 算法 ,32B 模型推理性能反超 o1-mini

阿里通义实验室智能计算团队今日正式对外发布了大模型后训练领域的新型算法——FIPO(Future-KL Influenced Policy Optimization)。该算法通过引入创新的 "Future-KL" 机制,有效解决了纯强化学习(Pure RL)训练过程中普遍存在的 " 推理长度停滞 " 技术瓶颈。

在长文本推理与复杂逻辑对齐的训练中,传统强化学习往往难以精准捕捉长序列中的关键决策点。通义团队开发的 FIPO 算法通过对关键 Token 实施差异化奖励分配,引导模型在思维链(CoT)生成过程中更具前瞻性。

实验数据显示,在 32B 规模模型的纯强化学习设定下,搭载 FIPO 算法的模型性能已率先超越同规模的 DeepSeek-Zero-MATH 以及 OpenAI 的 o1-mini,标志着国产大模型在逻辑推理与数学计算能力上取得了实质性进展。

当前,大模型竞争的重心正从预训练规模转向推理端的深度对齐。FIPO 算法的推出,不仅为解决逻辑推理模型中 " 思考过程 " 的质量评估提供了新思路,也预示着开源社区与国产头部实验室在追赶全球顶尖推理模型过程中,正逐步构建起独立的技术演进路径。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容