事情开始变得有趣起来了。
刚刚,来自千寻智能的具身智能基础模型Spirit v1.5,在RoboChallenge真机评测榜上,以总分66.09,成功率50.33%的成绩,超越美国明星公司 Physical Intelligence 的Pi0.5(π 0.5),登顶榜首。


就在前不久,另一家国产团队自变量发布的开源模型 wall-oss-v0.1,刚刚超越 Pi0,升至榜单第二。
而现在,Spirit v1.5 直接越过 Pi0.5,拿下榜首。
这种密集、连续的刷榜节奏,多少有点让人想起当年 AlexNet、VGG、GoogLeNet、ResNet 刷新 ImageNet 的那段时间——
基准在被不断打破,模型天花板被一再抬高。
也正如当年 CV 的开源景象,Spirit v1.5 同步开源了基模权重、推理代码以及使用样例,方便后续的研究者复现和进一步探索。
而正是在这被誉为具身智能「ImageNet」的 RoboChallenge 上,开源模型正以可验证、可复现的方式,持续推动具身能力向前发展。
开源具身模型能力,全球领先
截至 2026 年 1 月 12 日,Spirit v1.5 在 RoboChallenge 上取得了当前最优的性能,超越了 Pi0.5 等之前的全球领先开源模型。
在 RoboChallenge 的 Table30 任务中,Spirit v1.5 表现堪称 " 碾压级 ",不仅在下列多项任务中夺得第一:
插花(arrange flowers)
水果入篮(arrange fruits in basket)
挂牙刷杯(hang toothbrush cup)
薯条倒碗(pour fries into plate)
开瓶器入抽屉(put opener in drawer)
笔入笔盒(put pen into pencilcase)
寻找绿盒(search green boxes)
浇花(water potted plant)
……
还在贴胶带(stick tape to box)、清扫垃圾(sweep the rubbish)、开关灯(turn on light switch)等任务上实现绝对领先。
其中 " 寻找绿盒 " 任务堪称高光时刻—— Spirit v1.5 直接将成功率拉至90%。

在水果入篮任务中,Spirit v1.5 更是以 80% 的成功率,领先 Pi0.5 整整一倍。




(左为 Spirit v1.5,右为 Pi0.5)
在演示中,Spirit v1.5 基本上可以稳稳地将鲜花放入花瓶。
而 Pi0.5 有时则会出现突然卡死的情况,从而导致任务中断。
在最考验技术功底的贴胶带任务中,即便 Spirit v1.5 20% 的成功率不算特别突出,但对比 Pi0.5 仅 10% 的表现,仍实现了翻倍领先。
贴胶带属于典型的闭环触觉接触任务(机器人手指 / 夹爪间隙极小),对机械臂协同与触觉感知要求极高,机器人经常会出现空抓的现象。
在演示中,Spirit v1.5 凭借双机械臂精准配合,能流畅完成撕胶、贴盒全流程。
而相比之下,Pi0.5 虽然能很快的定位到胶带的位置,但却难以感知到是否撕到胶带,频频出现了空贴的现象。
透过上述任务我们不难看出,Spirit v1.5 在复杂长指令任务中的稳定发挥,意味着其已经进化为一个具备出色逻辑推理与空间感知能力的 " 具身大脑 "。
而这份实力的认证,正来自具身智能领域的标杆级 " 试炼场 " —— RoboChallenge。
RoboChallenge 由Dexmal 原力灵机联合Hugging Face发起,是首个在真实物理环境中,由真实机器人执行操作的大规模、多任务基准测试。
它的 Table30 任务集,通过 30 个高频桌面及周边日常场景,从 VLA 难点、机器人形态、任务流程与物体属性等维度考察模型真实世界通用操作能力。
考试机型覆盖 ARX5、UR5e、ALOHA、Franka、UR5 等;测试任务涵盖抓取、放置、堆叠、打开、按压、分类等复杂动作。
除上述任务设置外,RoboChallenge 它的核心创新,在于Remote Robot Paradigm(远程机器人范式):
参赛者在本地运行模型,只需通过 HTTP 接口向机器人发送控制指令,机器人被视作一个可远程调用的 " 外设 "。

所有参赛者均可通过官方页面查看比赛实况,全程保障赛事的公平与透明。
不过,由于推理发生在用户侧,模型的具体实现仍主要依赖参赛者自律与社区共识——
例如是否始终保持与所声明方案的一致性,是否在多任务通用型模型(multi-task generalist model)的设定下,避免针对单一任务的特殊化调优。

也正是在这一背景下,Spirit v1.5 此次选择同步开源,其意义不仅在于成绩本身,也契合了 RoboChallenge 鼓励通过可复现、可验证的方式,共同推动具身智能基准向前发展的初衷。
那么,Spirit v1.5 具体是怎么做到的呢?
数据多样性成制胜法宝
Spirit v1.5 的核心创新,主要体现在预训练阶段的数据策略上。
它将具身模型的预训练数据,从高度精选、强控制的「干净数据」,转向多样化、开放式、弱控制的数据采集范式。
这里所说的「干净数据」,通常指动作模式相对单一、物体摆放位置与视角高度固定的精选数据集。
例如Open X-Embodiment、Agibot和RoboCOIN等具身模型训练的主流数据集。
这类数据的优势在于:数采成本低、学习难度可控;
但代价同样明显——动作模式的多样性被显著压缩,模型对真实世界不确定性的适应能力因此受限。
针对这一问题,Spirit v1.5 采取了相反的策略。
在数据采集阶段,它鼓励数采员只围绕任务目标行动,而不强制遵循固定的动作流程。
例如,在为假人头部化妆时,采集员并不会严格复现某一套标准操作,而是以更接近真实人类行为的方式自由完成任务。
这样做的结果是采集来的数据不再是单任务、单目标的单成功轨迹。
而是在自然执行过程中,连续覆盖了抓取、插入、整理、双臂协作、异常处理等大量原子技能,并以真实世界的时序关系串联在一起。
这种开放式采集显著扩大了动作分布,使模型在预训练阶段 " 见过更多可能性 ",从而具备更强的迁移与泛化能力。
在工程层面,这一策略同样带来了可观收益:人均有效采集时长提升约 200%,对算法专家深度介入的需求降低约60%。
而在实验验证中,这种以多样性为核心的数据策略,同样得到了印证。
一方面,在RoboChallenge Table30的真机评测中,Spirit v1.5 已经在整体能力层面证明了该范式是成立的(相关结果已在前文展开)。
另一方面,在消融实验中,研究团队在预训练数据规模完全一致的前提下,对比了两种策略:
基于脚本化任务演示的预训练;
基于多样化、开放式采集的预训练。
结果显示,多样化预训练的模型在新任务上的微调效率显著更高:在达到相同性能时,所需迭代次数减少约40%。


模型真正学到的,并非某个任务的最优动作序列,而是一套可迁移的通用策略,使其能够用更少的步骤适应新任务。
由此,使用高多样性、弱控制的数据进行预训练不仅可行,而且显著优于文献中常见的利用 " 干净 " 数据的做法。
也正因为并非针对单一任务优化,Spirit v1.5 更适合作为一个通用具身智能的基础模型被复用。
对学界而言,它提供了一条不同于 Pi 系列且更优的开源技术路径。
对产业团队而言,这种以真实世界多样性为起点的预训练方式,显著降低了新场景的迁移与适配成本。
随着模型权重与代码同步开源,Spirit v1.5 在 RoboChallenge 上的成绩不再只是一次展示,而成为一个可验证、可复现、可继续推进的起点。
Spirit v1.5 背后的团队:千寻智能在做什么
最后,再把视角拉回到 Spirit v1.5 背后的团队——千寻智能(Spirit AI)。
成立于 2024 年 1 月的千寻智能,是一支非常 " 年轻 " 的队伍,却已经成长为国内少数具备 AI+ 机器人全栈、生产力级技术能力的具身智能公司。
简单概括,千寻的路线非常明确——通用人形机器人 + 具身大模型(VLA)一体推进,因此常被外界称为 " 中国版 Figure"。

联合创始人兼首席科学家高阳:清华交叉信息研究院助理教授," 伯克利归国四子之一 ",师从具身智能权威学者 Pieter Abbeel,其提出的 ViLa 算法被 Figure 采用。
在融资方面,2025 年千寻智能狂揽超 15 亿元融资,6 月 PreA+ 轮由京东领投 6 亿元,浙江省科创母基金、华泰紫金等新势力跟投,顺为资本、华控基金等老股东更是继续跟投。
在商业落地方面,其通用人形机器人 " 小墨 "(Moz1)已于 2025 年底在宁德时代电池产线规模化落地,精细作业成功率突破 99%,用工业级场景完成了一次硬核验证。

千寻始终在做一件事:把具身智能从 " 实验效果 ",推进到 " 可复现、可量产、可落地 " 的工程体系中。
而这次 Spirit v1.5 在 RoboChallenge 上的登顶,并不仅仅意味着一次榜单上的领先。
它更像是千寻具身智能模型快速迭代周期中,一次在同一公开基准下完成的、具有标志意义的性能对标:
在真实机器人、真实任务、统一评测条件下,对现有的技术路线进行了一次阶段性验证。
从结果来看,Spirit v1.5 在泛化性、稳定性与鲁棒性等系统层面的能力,已经出现了整体跃迁,而不仅是单点任务的 " 刷分 "。
更重要的是,这一成绩并未停留在展示层面。
Spirit v1.5 同步开源模型权重、推理代码和使用样例,使得这一结果可以被复现、被检验、也可以被后续研究继续推进。
正如当年 ImageNet 之于计算机视觉,只有在一个可复现、公正、开放的基准之上,模型能力的进步才具备真正的参考价值。
而模型的开源也进一步方便后续研究者的快速迭代优化与创新探索。
在被不少研究者视作具身智能「ImageNet」的 RoboChallenge 上,这次登顶既是一次能力确认,也是一种明确表态——
千寻选择将技术进展放入开源体系之中,与社区一起,把具身智能的天花板持续往前推。
正如千寻首席科学家高阳针对 Spirit v1.5 在开源模型赛道斩获全球第一时说所的:
它不仅是一次技术上的突破,也意味着我们在追寻智能的道路上,再次站到了当下人类智能所能企及的高度之一。更重要的是,这个模型是开源的。我们选择把它交到更多人手中,让大家一起使用、一起验证、一起推进这条路。智能不应该被少数人垄断,而应该被共同建设。
开源地址:
Code: https://github.com/Spirit-AI-Team/spirit-v1.5
Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
