AI 能不能真正 " 动脑子 "?这个问题有了新答案。
蚂蚁开源团队推出的 Ring-1T 模型,为这个长期存在的疑问提供了最具说服力的实证。不同于以往依赖海量数据 " 记忆 " 答案的语言模型,Ring-1T 试图让 AI 在复杂问题中真正 " 推理 " 出答案。
它通过强化学习与多阶段推理机制的结合,使模型能够在反馈中不断修正思路、优化逻辑路径,逐步形成更稳定、更接近人类思维的推理模式。
正是这种从 " 模仿 " 到 " 思考 " 的转变,让 Ring-1T 成为开源 AI 领域的一次里程碑式突破。接下来,让我们看看这项研究是如何实现的。

通用智能的火花
实验中 Ring-1T 模型在多个高难度推理与数学基准上进行了系统性评估,都取得了突破性的实验成果。作为一个开源的万亿参数思考型模型,Ring-1T 分别在推理、数学、编程及通用智能任务上均展现出卓越的综合能力。
在数学推理能力方面,Ring-1T 在 AIME-2025 中取得 93.4 分的成绩,接近人类顶尖选手水平;在 HMMT-2025 中得分 86.72,显示其在跨领域数学推理与高复杂度逻辑演算中的强大能力;在 IMO-2025 模拟评测中达到银牌水平,证明模型能够在需要多步推理与创造性证明的问题中保持高准确率和稳定性。


总体而言,Ring-1T 在各项基准测试中表现出优异的稳定性与一致性,尤其在复杂推理与多步逻辑任务中未出现显著性能退化。与此前主要停留在百亿或千亿参数规模的开源模型相比,Ring-1T 在数学、推理与算法任务上全面刷新了开源模型的性能上限,成为新一代开源思考型模型的性能基准。

IcePop 旨在提升强化学习训练的稳定性,解决训练与推理分布不一致的问题。它通过动态约束与梯度剪切,限制高熵样本的影响,并自适应调整温度参数,使模型在保持探索性的同时更稳定收敛,从而提高推理阶段的可靠性。


算法与系统的共振
论文中体现的实验过程,主要以 Ring-1T 思考型模型 为研究对象,研究人员设计了分阶段的训练体系,包括 监督微调(SFT)、推理强化学习(Reasoning RL) 和 通用强化学习(General RL)。研究的主要突破集中在后两个阶段,通过引入 IcePop、C3PO++ 与 ASystem 等方法,实现了在大规模强化学习中的稳定训练与高效推理。

在强化学习阶段,Ring-1T 的性能提升主要依赖两项关键技术:IcePop 和 C3PO++。其中,IcePop 的目标是让训练过程更加稳定,避免模型在训练和推理阶段出现表现不一致的情况。
简单来说,它会在每次更新模型参数时,对不稳定或异常的样本进行 " 筛选 " 和 " 削弱 "。具体做法是:计算训练阶段与推理阶段之间的概率差异,如果某个 token 的概率偏离太大,就会被部分 " 掩盖 " 或降低权重。这样可以防止模型在训练中因为极端样本而产生剧烈波动。
除此之外,IcePop 采用了参数 α =0.5、β =5.0 的范围,也就是只让概率比值处于 [ 0.5, 5.0 ] 的样本参与优化。研究人员还测试了不同范围的配置(如 [ 0.5, 2.0 ] 、 [ 0.4, 5.0 ] ),结果表明默认参数在训练稳定性与性能之间达到了平衡。

它设置了一个 token 预算(Φ),当生成的 token 数达到预算上限时,就会立即触发一次更新。系统分为两个池子:推理池(P_infer) 不断生成新样本,训练池(Q_train) 收集已经生成完成的样本并进行更新,这样推理和训练就可以同时进行。
为了防止某些特别长的序列占用资源,C3PO++ 还给每个样本设定了一个 保留期(σ),超时未完成的样本会被清除。而那些还没生成完的样本则会在下一轮继续生成(即 " 跨迭代续传 ")。通过这些机制,C3PO++ 能让训练过程更加流畅高效,不会因为个别长样本卡住整个系统。
总体来说,IcePop 让训练更稳,C3PO++ 让训练更快,两者结合,使 Ring-1T 能在万亿参数规模下保持高效、稳定的强化学习表现。

ASystem 采用一种叫 SingleController + SPMD 的并行架构。简单来说,就是用一个中央控制器来统一调度成千上万的计算节点,让每个节点都执行相同的训练流程,从而保证全系统的同步与高效协作。
整个系统由四个主要模块组成:
Hybrid Runtime:这是训练和推理的统一执行环境,负责同时管理模型训练和模型测试的计算任务,避免不同系统之间反复传输数据。
AMem:负责 GPU 显存的管理和数据传输。它可以在不同显卡之间切换内存、使用多条数据通道传输信息,并通过共享内存池减少显存占用,从而支持更大的批量训练而不会崩溃。
AState:负责在不同计算节点之间同步模型参数。它采用点对点(P2P)的高效传输方式,只同步必要的部分,能在大约 10 秒内完成万亿级参数的同步。
ASandbox:相当于一个安全的 " 实验沙盒 ",用于执行代码生成、数学计算和逻辑验证等推理任务。它像 " 函数即服务 " 一样,可以在隔离环境中同时运行成千上万个推理请求。
在系统设计上,ASystem 将控制逻辑和数据流分离,使训练、推理和奖励计算模块都能独立运行。它还具有 " 快速失败与自动恢复 " 机制:如果某个节点出现问题,系统能自动检测并恢复运行,而不会影响整体训练进度。
通过这些设计,ASystem 让 Ring-1T 能够在成千 GPU 的大规模环境中稳定运行,实现高吞吐、高可靠的强化学习训练。雷峰网

过去的模型大多依赖数据去模仿人类答案,但面对复杂推理或逻辑问题时容易出错。Ring-1T 的研究探索了一种新的思路 —— 通过强化学习让模型在反馈中不断调整自己的思考方式,逐步形成更稳定、更清晰的推理能力。
它的另一个意义在于证明了超大规模强化学习是可以实现的。以前这种规模的模型常常训练不稳、成本高、容易崩溃,而这项研究用新的算法和系统设计,找到了一种让万亿参数模型稳定训练的方法。这为后续更复杂、更自主的模型研究提供了可操作的经验。
从更长远的角度看,这项工作也让开源模型有机会在高层次智能上追上闭源系统。它或许不只是一次技术升级,而是让智能研究变得更开放、更有延续性的一步。雷峰网