关于ZAKER 合作
雷锋网 1小时前

美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶开源 SOTA

1 月 16 日,美团 LongCat 官微消息,作为 LongCat-Flash-Thinking 模型的升级版,LongCat-Flash-Thinking-2601 现已开源。新模型在 Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型 SOTA 水平。

值得一提的是,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了 Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持 " 重思考 " 模式,可同时启动 8 个 " 大脑 " 执行任务,确保思考周全、决策可靠。

目前,该功能可在 https://longcat.ai 网站免费体验。

" 重思考 " 功能全新上线 智能体工具调用能力登顶开源 SOTA

据介绍,全新推出的 " 重思考 " 模式,已让 " 龙猫 " 学会了 " 深思熟虑 " 再行动。

具体来看,当遇到高难度问题时,新模型会把思考过程拆分成 " 并行思考 " 和 " 总结归纳 " 两步进行:

并行思考阶段,与人类面对难题会同时尝试多种解法相似," 重思考 " 模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,LongCat 团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让 LongCat-Flash-Thinking-2601 实现了 " 想清楚再行动 " 的结果。

经过全面严谨的评估,LongCat-Flash-Thinking-2601 模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异:

LongCat-Flash-Thinking-2601 的平均性能比较(资料图)

· 编程能力:LongCat-Flash-Thinking-2601 在 LCB 评测中取得 82.8 分,OIBench EN 评测获 47.7 分,成绩处于同类模型第一梯队,代码基础能力扎实。

· 数学推理能力:在开启 " 重思考 " 模式后表现突出,LongCat-Flash-Thinking-2601 在 AIME-25 评测中获 100.0 分(满分),IMO-AnswerBench 中以 86.8 分达到当前 SOTA。

· 智能体工具调用能力:在 τ -Bench 评测中拿到 88.2 分,VitaBench 评测中获得 29.3 分,均获得开源 SOTA 水平,在多领域工具调用场景下表现优异,适配实际应用需求。

· 智能体搜索能力:在 BrowseComp 任务中取得 73.1 分(全模型最优),RW Search 评测获 79.5 分,LongCat-Flash-Thinking-2601 具备强劲的信息检索与场景适配能力,达到开源领先水平。

为了更好测试智能体模型的泛化能力,团队还提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。

实验结果表明,LongCat-Flash-Thinking-2601 在绝大多数任务中保持领先性能,印证了其在智能体场景下优秀的泛化能力。

技术解密:从 " 靶场 " 到 " 实战 " 的训练哲学

对于新模型的技术思路,LongCat 团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实 " 战场 " 可能会掉链子。而基于 " 环境扩展 + 多环境强化学习 " 核心技术,团队为模型打造了多样化的 " 高强度练兵场 ",构建了多套高质量训练环境,并在每套环境中集成 60 余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

得益于这套方案,LongCat-Flash-Thinking-2601 在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中,性能优于 Claude-Opus-4.5-Thinking。

此外,LongCat 团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型 " 偏科 " 与训练漏洞,让这套全流程方案持续赋能模型,使其稳居智能体能力第一梯队。

该团队还表示,现实世界的智能体环境充满不确定性,API 调用失败、返回异常信息、观测数据不完整等 " 噪声 " 问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟 API 的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。

带噪声 / 无噪声评测集下的模型表现对比(资料图)

经过系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/Noise 组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。

相关标签