关于ZAKER Skills 合作
钛媒体 1小时前

灵初智能想做具身智能时代的“卖铲人”

文 | 高恒说

灵初智能最近接连发布模型、开源数据和融资消息,但这些动作真正指向的,不是又一家机器人公司站上风口,而是具身智能行业正在换一道题:机器人到底从哪里学会干活。

按照公司披露,灵初智能新一代具身智能模型 Psi-R2 在 MolmoSpaces 榜单中超过 PI、DreamZero 等模型,位列全球第一;同时发布 Psi-W0,并开源 1000 小时高质量人类操作全模态数据集。随后,公司宣布完成新一轮融资,投资方包括国投先导、京西瑞瓴。

灵初智能的野心也藏在这里。它押注的不是整机出货,而是人类操作数据、灵巧手、世界模型和物流场景里的数据闭环。换句话说,它想抢的不是一台机器人,而是机器人学会干活之前最稀缺的数据入口。但这条路能不能走通,最终不看榜单,也不看融资,而要看这些数据能不能进入模型、进入仓库,并变成客户愿意持续付费的生产力。

01:多轮融资背后,资本押的是数据入口

灵初智能被资本看见,首先是因为它踩中了具身智能最热的融资窗口。但比 " 又一家机器人公司拿钱 " 更值得看的,是它把故事讲到了一个更底层的问题上:机器人训练数据从哪里来。

公开报道显示,灵初智能已完成天使轮及 Pre-A 轮合计 20 亿元融资。天使轮投资方包括国开金融、国中资本、央视融媒体产业投资基金、某千亿上市公司旗下战投、长飞光纤旗下基金等;Pre-A 轮由上海国资徐汇资本等领投,部分地方国资及市场化基金跟投。4 月 12 日,公司官方公众号又宣布获得国投先导、京西瑞瓴的新一轮投资。

这些融资动作要放在整个具身智能赛道里看。投中嘉川 CVSource 数据显示,2025 年具身智能融资规模达到 329 亿元。另有媒体报道,据不完全统计,2026 年至今,中国具身智能及机器人赛道已披露融资合计约 200 亿元。短短几个月,行业里多出七家新晋独角兽,银河通用、千寻智能、自变量机器人、智平方、星动纪元等公司,都在资本热潮里被快速推高估值。

但钱多并不代表商业模式已经清楚。具身智能现在至少有三种下注路径:有人押机器人本体,有人押 " 大脑 " 模型,也有人押更底层的数据入口。灵初智能更接近第三种。它不是一家典型的整机公司,按照公司和相关报道中的定位,它更像 " 小全栈 ":不重资产押整机制造,而是把重心放在端到端 VLA 模型、灵巧操作、数据采集工具链和部分硬件设计上。

这条路线有现实基础。大语言模型可以从互联网上获得大量文本,自动驾驶可以靠车队路测积累数据,但机器人学会折纸盒、扫条码、装手机、抓衣服,不能只靠网页和视频。它必须在真实世界里理解物体、动作、触觉、空间位置和作业节拍。具身智能行业已经不缺会展示的机器人,缺的是可以规模化训练机器人的真实数据。

这也是灵初智能被资本押注的核心逻辑:它试图先卡住机器人训练所需要的数据入口,再通过模型和灵巧操作能力,把数据转化为场景里的生产力。

但问题也在这里。数据采集看起来像机器人时代的 " 卖铲子 " 生意,可它是不是长期生意,还没有答案。等机器人真正大规模部署以后,数据可能从实际作业中自然回流。到那时,单纯采数据未必有足够壁垒。灵初智能必须证明,它不只是能采数据,还能把数据变成模型能力,再变成客户愿意付费的生产力。

02:它为什么押人类操作数据

如果说多轮融资解释了资本为什么看见灵初智能,那么 Psi-R2、Psi-W0 和近 10 万小时人类操作数据,解释的是它想怎么卡住这个数据入口。

按照公司披露,Psi-R2 的预训练同时使用真机数据和人类数据。其中,真机数据来自 Psi-MobiDex 数据集,规模为 5417 小时;人类数据规模达到 95472 小时,覆盖 294 种场景、4821 种任务和 1382 种物体。与此同时,公司还开源了 1000 小时高质量人类操作全模态数据集。

这组数据的关键,不在人类操作数据 " 接近 10 万小时 " 这个数字本身,而在它回答了一个行业难题:机器人训练数据到底从哪里来?

过去,行业常用真机遥操作。人盯着屏幕控制机械臂,让机器人一遍遍完成任务。这条路直接,但成本高、速度慢,还需要专业设备和场地。更关键的是,遥操作的节奏往往跟不上真实生产。一个模型如果要从简单抓取走向长程作业,只靠这种方式很难堆出足够数据。

仿真也能快速生成数据,便于并行训练,但它的问题同样明显:仿真和现实之间存在差距。真实世界里的摩擦、变形、遮挡、接触误差,很难被完全还原。尤其在灵巧操作里,差一毫米,结果可能就完全不同。

灵初智能选择回到人身上。

人类本来就在仓库、便利店、工厂里完成大量高频动作:抓取、扫码、分拣、装配、折叠、插接。这些动作天然带着任务目标、物体关系和工作节拍。灵初智能的设想是,让人戴上多模态数据手套,在真实场景里干活,把视觉、触觉、关节角等信息采下来,再把这些人类操作数据转化成机器人可用的数据。

这和单纯视频学习、传统遥操作都不一样。视频主要记录 " 人看到了什么 ",数据手套试图记录的是 " 人的手具体怎么动 ":关节如何变化、触觉何时出现、动作轨迹如何完成。对机器人来说,这些才是学会操作的关键细节。

它的模型分工也围绕这个目标展开。Psi-R2 是策略模型,负责学习 " 这件事该怎么做 ";Psi-W0 是世界模型,负责推演 " 换种做法会怎样 "。公司披露,Psi-W0 在训练中加入了约 30% 的失败样本,让模型不只学习成功轨迹,也理解失败如何发生。

这一步很重要。真正难的不是让机器人模仿一次成功动作,而是让它知道为什么会失败,以及失败后怎么调整。对高精度任务来说,人类抓苹果的动作映射到机器人身上,可能只差一点点就抓不起来。世界模型的价值,就是在真实执行之前,先帮机器人在模型里试错。

不过,这条路线不能被简单理解成 " 数据越多越好 "。真正决定数据价值的,不只是规模,而是信噪比、精度和节拍。任务多样性比物体多样性更重要,物体多样性又比场景多样性更重要;在感知模态上,精准 3D 位姿的价值高于触觉,触觉又高于普通 2D 图像特征。

这说明,人类操作数据虽然丰富,但并不天然等于机器人能力。人手和机械手结构不同,人的动作不能直接平移到机器人身上;纯第一视角视频成本低,但精度不足;触觉数据有价值,但不同硬件格式难统一。

这也是灵初智能这条路线最大的门槛:采到人类数据只是第一步,把人的操作稳定迁移成机器人的能力,才是真正的难题。

03:最终答案不在榜单,在仓库里

模型能不能成立,最终要回到场景里验证。对灵初智能来说,这个场景暂时不是家庭,也不是舞台上更容易传播的人形机器人表演,而是物流和零售。

但物流和零售不是一个笼统场景,真正有价值的是其中高频、可量化、又有足够复杂度的细分环节。灵初智能首站选择服装仓储,是因为这个场景贯通仓库、门店和 C 端,SKU 极其丰富,颜色、包装、尺寸各不相同,天然能产生大量多样性数据。

这个选择相对务实。家庭场景极端情况太多,短期内难闭环;传统工厂数据又太封闭,迁移价值有限。服装仓储介于两者之间,既复杂,又相对可控。一个 " 扫码 " 动作看似简单,但要做到 99.9% 以上成功率,还要跟上稳定作业节拍,已经足以检验机器人是不是具备真实生产力。

公开报道提到,灵初智能的数据手套已经实现硬件落地,北京地区 100 套设备正在部署;此前公司已完成 1 万小时量级真实手套数据验证,2026 年目标是突破 100 万小时量级。公司还计划把分布式数据采集和微支付结合,用户可以购买或租赁数据手套,在家完成简单操作 3 分钟获得 1 — 1.5 美元报酬。

这意味着,灵初智能不是只想做一次性数据采集,而是想把数据采集做成可持续扩张的网络。这个设想有想象力,也有明显的不确定性:分布式采集能降低成本,扩大数据来源,但越分散的数据,越考验质量控制、任务标准化和后续清洗对齐能力。如果采来的数据不能稳定转化成机器人可执行轨迹,规模越大,噪声也可能越大。

更关键的是,即便数据和模型跑通,具身智能公司也必须面对一个更现实的问题:客户到底愿不愿意持续付费。

人形机器人场景应用联盟的不完全统计显示,2025 年中国市场公开披露的人形机器人中标项目超过 292 个,披露合同金额合计超 18.1 亿元;但其中 235 个项目金额在 500 万元以下,单笔过亿元项目只有 4 个。多位投资人和行业人士还提到,部分具身智能订单存在 " 水分 ",不少更像展示采购、意向订单或数据采集合作,而不是真正意义上的生产力替代。

这才是灵初智能接下来真正要面对的市场。MolmoSpaces 榜单第一、接近 10 万小时人类操作数据、1000 小时开源数据集,都能证明它在技术和数据上有动作。但客户最终不会为榜单付费,只会为更低成本、更高效率、更稳定的作业结果付费。

所以,灵初智能最值得看的,不是它又融了多少钱,而是它能不能跑通一条闭环:用数据手套采到真实人类操作数据,用 Psi-R2 和 Psi-W0 把数据转成模型能力,再让机器人进入物流和零售场景干活,最后从真实作业里继续回流数据。

如果这条链路跑通,它就不只是具身智能融资潮里的一家公司,而可能成为机器人时代的数据基础设施公司。可如果链路跑不通,它也会被卷进行业共同困境:Demo 很多,订单很薄,技术看起来很近,真正替代生产力还很远。

2026 年的具身智能,不宜简单说成商业化爆发元年。更准确地说,它是商业化验证年,也是淘汰赛开始的一年。灵初智能站在了一个有利位置,但位置不等于结果。真正的答案,不在融资,也不在模型榜单,而在仓库、货架和客户每天计算的那本账里。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容