关于ZAKER 合作
36氪 1小时前

对话原力灵机唐文斌:我不喜欢讲我不信的话,也无法成为我不想成为的人

文|富充

编辑|苏建勋

创业满一年,唐文斌的身上依旧保留着旷视时期的印记,在和我们的对话中,他时常说到" 本质 "这个词——那是旷视内部的一个 " 流行词 "。

清华 " 姚班 " 毕业之后,唐文斌和同学印奇、杨沐在 2011 年创办了旷视科技。在这家 AI 1.0 标志性企业中,人们喜欢追问 " 本质 "。

创业旷视的 14 年里,唐文斌经历了 AI 1.0 浪潮的完整起伏。从高歌猛进的业务扩展,到屡次与上市失之交臂,这些经历也打磨着他对 " 本质 " 的理解。

关于对旷视最重要的反思,唐文斌认为是摊子不要铺得太大,而是应该先集中全力,把一个最有优势的业务做透。

近来履新阶跃星辰董事长的印奇,在不久前的采访中也有过类似表达——商业模式本质上是做排除法。看过了热闹,大家更清楚一个道理:与其做很多事,不如想清楚什么不做。

2025 年 3 月,唐文斌创办具身智能公司原力灵机。二次创业中,唐文斌更会做减法了。

过去一年中,原力灵机没有跟业界一起卷订单规模,也没有急着推出一个 " 软硬全栈 " 的故事提升估值。

原力灵机的第一年,把主要精力放在模型开发,以及数据、框架、评测等 AI 基础设施工作上。因为在唐文斌看来,这些是决定迭代效率的基础。

" 一直跑在前面 " 的迭代能力,和 " 短暂的领先 " 相比,是更本质的竞争力。

当被问及会不会因为节奏 " 慢 ",而受到投资人压力时,唐文斌对《智能涌现》说:" 有些公司确实通过一些浮夸的方式获得了不错的收益,我们也困惑过,要不要也这样做。但后来想明白了,我不是很喜欢讲我不信的话,也无法成为我不想成为的人。"

他把自己这些年的变化概括成三个阶段:" 初生牛犊不怕虎 " 的盲目自信,被现实教育后 " 觉得很多事情不知道怎么做 " 的迷茫,以及如今抵达的 " 谦虚的自信 " ——知道自己知道什么,也非常清楚自己不知道什么。

用 AGI 通用机器人开启生产力极大富足的时代,是唐文斌当下心中的星辰大海。不过,这一次的落点更脚踏实地:随着模型能力提升逐个解锁场景,先把自己在旷视时期就有积累的物流业务做到商业闭环。

以下是唐文斌与《智能涌现》的对话,内容经作者整理。

△原力灵机 CEO 唐文斌,图片:采访人提供

创业第一年,关键词:迭代

智能涌现:回顾原力灵机创业这一年,你脑子里冒出来的第一个词是什么?

唐文斌:迭代。过去一年里,很多东西都在变——技术认知、数据方案、场景选择、融资节奏等等。和历史上的经验一样,具身智能的变化也比我们预想的要快。

我们今天面对的,依然是一个充满未知的领域。在今天的具身智能行业里,一家公司本质的竞争力,不是今天有多领先,而是迭代效率有多高。谁能在变化中更快地发现问题、修正问题,谁才可能一直跑在前面。

智能涌现:原力灵机的主创团队来自旷视,经过旷视十多年的创业经历,你仍然觉得当下的创业有很多意料之外的变化吗?

唐文斌:是的,即便我们从 AI 1.0 时代积累了很多经验教训。

旷视时期我们逐渐解决了计算机视觉、自动驾驶、大模型等领域的问题,到现在进入具身智能领域。每一次身处其中的时候,我们并不知道明确的路线是什么,但历史上每一次的感悟都是,技术变化的频率比我们预期中更快。

对于现在我们所投入的具身行业也是一样,我们依然在解决很多未知的问题,这需要我们快速迭代自己的想法。

智能涌现:再次创业,你还会有兴奋感吗?如果有的话,从何而来?

唐文斌:我觉得无论在旷视还是现在做机器人的创业,都是在 " 把这个世界应该被解决的问题做得更好 "。这也是我们所说的工程师的兴奋感,叫 " 我能解决这个问题 "。

从旷视时期,我就形成了一套朴素的观念,叫做 " 技术信仰,价值务实。简单来说,我们没有创造新需求,如果创造一个居家做情感陪伴的机器人,这相当于创造了一个新需求。但我们目前在做的事情,而是用更好的工具解决已有问题,比如让机器人去解决、替换原来工业场景里人类做起来繁杂、危险的工作。

智能涌现:这可能是一个非常务实的定位,但是听起来会不会没那么 " 性感 "?

唐文斌:我觉得要看怎么定义 " 性感 "。我认为今天我们不管在生活和生产的过程中,我们有大量的问题可以有更好的解法。解决好这些客观存在的问题是可以产生巨大价值的,无论是商业价值、社会价值,还是用户价值等等。

如果真的创造出了 AGI 通用机器人,人类会进入一个生产力极大富足的时代。这种很高的技术期待本身,就是一种星辰大海式的愿景。

找好场景,解开 " 数据死锁 "

智能涌现:现阶段,具身智能的本质问题,你觉得是什么?

唐文斌:是模型,模型能力够强,才能解锁场景,而模型的突破点在数据。

数据本质上是在消灭不确定性,真正有价值的是 Outlier 的数据。你只有让机器人进到真实场景,它才有机会犯错,见到更多 " 错题 ",减少不确定性。

智能涌现:关于数据采集,现在有很多方法,既有数采工厂,也有很多具身公司开发素材手套、胸前摄像头等让人类在实际工作采集数据。你们的采集方法如何?没有自己开发数采工具吗?

唐文斌:我们也有自己的数采工具,也买外面的数采工具和数据。但工具是方法,这些解决方法不本质。

本质的做法,还是要让机器人在真实场景中把数据飞轮转起来,收集到 Failure Case。就像今天自动驾驶的数据,平稳运行的数据并不稀缺,真正有价值的是接管的数据,就是自动驾驶算法不 Work 时的数据,才是 AI 真正要去学的东西。

现在采用的无论是遥操作还是以为人中心的视频、数采手套等方法,实际上是在模拟场景,但它并不是收集机器人真实和物理世界交互的工作场景数据。也就是说,通过这样的数据,开发者并不知道机器人靠今天的逻辑,到底在什么地方会犯错。

智能涌现:不进场景就没有你说的 Outlier 数据,没有多样的数据就训不出一个能进场景干活的好模型——这是一个 " 死锁 "。这个死锁怎么解开?

唐文斌:要找到适合当前机器人能力的场景。现阶段,我们要把机器人当成学徒工,而不是期望很高的正式工。

我们总结了几个找场景的条件:第一,容错——犯错后果不严重,或者有人兜得住;第二,对节拍有容忍度——机器人现在完成任务的时长不固定,但如果完成得慢,任务流程也不会因此崩溃;第三,长时间作业——否则客户采购的性价比算不过来;第四,能泛化,如果任务太专用,非标自动化基本就搞定了。

智能涌现:你说现在原力灵机主要在做物流场景?是因为它更容错吗?

唐文斌:物流表面上看不容错,比如你买瓶可乐,没发给你,这就是错了,客户会投诉的。但物流有很多流程环节,可以通过系统设计变成容错:让机器人先干,失败了人再接管上。

而且物流的节拍要求没那么强,一天大概有两到三个波次。完成着两三个波次就可以,至于到底是 9 点干完,还是 10 点干完,不对整体造成太大影响。

智能涌现:所以你在场景上的策略是 " 沿途下蛋 "?

唐文斌:我的模型最终是追求通用能力,并不是说我是朝着某个场景去的,只是在模型能力提升的过程中会逐渐解锁一些场景。

所以,比起沿途下蛋,我更喜欢形容当前的模型和场景是个 " 夹角关系 "。横轴是场景,斜着向上的这条射线是模型能力,两者不是完全分开的,也不是一开始就重合的。只是随着模型越来越强,它能覆盖的场景会越来越多,这个夹角会越来越小,最后趋向一致。

△唐文斌在黑板上画起模型能力与场景解锁的 " 夹角图 "。横轴是场景,斜着向上的射线是模型能力,模型能力的提升,最终会落地在场景上。图片:作者拍摄

" 软硬全栈 " 不是衡量估值的本质问题

智能涌现:旷视时期,你就聚焦物流场景,做原力灵机之后再输出给客户的方案、产品会有不同吗?

唐文斌:简单而言,无论是我们当年在旷视做的物流机器人业务,还是现在很多同行在做的方案,本质上解决的都还是 " 搬运 " 的问题。也就是说,机器人主要替代的是人的 " 腿 "。

但真正更复杂的 " 手上动作 ",其实一直没有被很好解决。比如抓取、拣选、拿起、放下、打包,这些都还大量依赖人工。我们现在做原力灵机,更希望让模型逐步具备处理这些手部操作的能力,再和现有系统联动起来,形成一整套方案。

智能涌现:那原力灵机自己会做 " 手 " 的硬件吗?

唐文斌:" 手 " 其实是个广义的概念,我们叫末端执行器。两指的夹爪是一种,三指是一种,四指、五指也都是。

我不认为一种构型可以吃遍所有场景,有一些场景,用三指手就可以完成任务,成本还比五指手便宜。所以比做不做手更本质的是,要明确自己服务的场景,真正需要的是什么。

智能涌现:如果没有自己研发硬件,或者如果不是所谓的 " 软硬一体 " 全栈公司,会不会影响估值?

唐文斌:我觉得这不是本质问题。做不做硬件本质上都只是手段,关键还是看你想解决什么问题。

如果某个硬件环节和我们的核心结构设计、产品主线强相关,而且现成供应链满足不了需求,那我们当然会考虑自己做;但如果外部厂商愿意配合定制,能够满足我们的要求,那我也没有必要什么都亲自下场。毕竟公司最宝贵的精力,还是应该放在更有差异化的地方。

所以核心不在于 " 你是不是一定要自己做 ",而在于你有没有自己做的能力。 如果你完全没有这个能力,就很容易被供应链拿捏。但如果你具备自己做的能力,就可以主动选择——哪些该自己做,哪些可以交给合作伙伴。就像苹果公司,也不是自己生产。

最好的具身智能模型,应该从 Day 1 就接触物理世界数据

智能涌现:你们在 DM0 发布会上,强调这是 " 具身原生模型 ",还和阶跃星辰做了数据融合训练。这算你们的 " 非共识 " 吗?

唐文斌:与其说非共识,不如说这是别人做不了的事。

我们觉得最好的具身智能模型应该从 Day 1 就开始接触物理世界的数据。互联网数据、自动驾驶数据、机器人数据,三类数据混在一起训,模型的上限会更高。

但三类数据在不同公司手里——互联网公司、自动驾驶公司、机器人公司。只有特斯拉、小米等少数大型公司才会同时拥有这三类数据。

我们能做,是因为和阶跃星辰恰好是有底层信任。这不只是技术问题,需要合作公司之间有数据定价、资产归属、算力分摊等方面的深度信任。

△原力灵机 DM0 模型包含互联网、自动驾驶、具身三类数据的多源混合训练,图片:采访人提供 "

智能涌现:为什么最好的具身智能模型,应该从 Day 1 就接触物理世界数据

唐文斌:你可以先把模型想象成一个初中毕业生,接受了九年制文化课,然后被拉去练三年体育,要变成 " 体校生 "。这个学生没有从小练体育,体能上限有限;狂练三年体育之后,文化课又落下了。所以最后得到的,通常是一个上限不高的体校生。

回归到数据上,问题是这样的,今天行业里大多数具身模型,本质上还是先拿一个开源的 VLM 模型做底座,相当于一开始接触的主要是互联网数据;然后再加入动作数据,微调成一个 VLA。

这样做,一方面会限制模型在真实世界中的能力上限,另一方面也容易在后期训练中出现 " 偏科 " ——为了强化动作能力,反而损失了一部分原本的通用理解能力。

所以我们更认同一种 " 具身原生 " 的训练方式:从 Day 1 开始,模型就应该见过足够多的物理世界数据。

智能涌现:现在行业里经常把 VLA、世界模型这些能力拆开来讲,或者认为世界模型要替代 VLA。你们怎么理解它们的关系?

唐文斌:我们认为,世界模型和 VLA 应该是一套统一的架构,而不是谁替代谁。

现在很多人的思路是:一个世界模型负责预测 " 接下来世界会变成什么样 ",另一个 VLA 或策略模型负责决定 " 我应该做什么动作 "。但我们的理解不一样——更好的方式,是在同一个框架里同时完成这两件事:它既在预测动作,也在预测这个动作之后世界会发生什么变化。

因为物理世界本来就是有因果关系的。比如你伸手去抓一个物体时,脑子里其实已经对它的重量、抓取方式和需要多大力形成了预期;但真正抓上去那一刻,如果发现它比预想中更重,你就会立刻根据触觉和受力反馈调整动作。这个过程中,你对世界的理解和你的动作决策,本来就是一体的。

我们理解的世界模型也是这样。它不应该只是一个 " 预测下一帧画面 " 的视觉模型,而应该和 VLA 融合在一起,形成一套统一的训练框架。这里面还需要多模态信息,比如上面例子中所说的触觉(力反馈),也需要有 Memory,才能把任务真正做完整。

这也是为什么我们一直强调,具身智能模型最好从 Day 1 开始就接触物理世界数据——它要学的不是孤立的动作,而是动作、反馈和世界变化之间的完整因果关系。

智能涌现:你们联合 Hugging Face 发起了 RoboChallenge 这个具身模型的真机 Benchmark,也引起了业内对原力灵机 " 又做裁判又做选手 " 的争议。所以,在你看来做评测的必要性是什么?

唐文斌:其实评测是非常重要的。我们内部有一句话说叫,如果你花了 50 块钱,这个模型应该花 20 块钱去评测一下它。否则如果你自己都不知道如何衡量他的好坏,我们先不说衡量大家,我们就先衡量自己,如果都没有这根尺子。你如何能够把这事儿做好?

△ "RoboChallenge 最新评测榜单(截至 2026 年 3 月 30 日),图片:采访提供 "

智能涌现:如果你的模型真的好,最后客户买单了,这不是一种更实际的 Benchmark 吗?

唐文斌:对,但这个反馈周期很长。而且,其实今天客户买单,可能是出于很多种原因。客户不买单的模型,大概率不是一个好模型;但好模型不一定会得到客户的订单。

以及当前可能模型在某个场景能力很强,但如果想考察它通用场景中的泛化能力,那还是需要一个 Benchmark 评测。

务实与做自己

智能涌现:你们在今年 2 月 10 日,成立近一年的时候,才正式发布了第一款模型。和行业普遍节奏比,会不会有点 " 慢 "?

唐文斌:我觉得今天的一些短暂的领先并不本质,比如别人一成立就发布了模型,或者 DM0 目前在 Benchmark 上的表现比较好。但当前的领先还说明不了什么,过两天可能就被追上了。

现在的本质是因为很多东西都在变化,真正重要的是迭代效率——你内部能不能更快地发现问题、解决问题。如果迭代效率比别人高,你就能一直跑在前面。

智能涌现:你曾经说具身智能的 "ChatGPT 时刻 " 是," 一个场景 1000 台机器人,持续运行 "。这个标准怎么来的?

唐文斌:一个场景 1000 台持续运行,意味着两件事。第一是业务流程闭环了,不用人过多参与的情况下,机器人也可以持续完成任务;第二是,账算明白了,客户愿意批量化使用。

达到这个水平,才能说是真正地被客户用起来了。

智能涌现:所以现在有真实的具身智能持续运行的场景吗?

唐文斌:持续运行的商业化场景其实都没那么快。我觉得大家对场景还是要有一定的耐心。但我觉得今年,最晚明年,至少在一线场景上,会出现真的商业化。

智能涌现:那你怎么看待当下具身行业里,那些 " 客户采购具身智能公司的机器人组建数据采集工厂,又将采集的数据卖给机器人公司 ",从而做大收入流水的现象?

唐文斌:这实际上是一种 " 循环收入,我不能说这些做法不对,这些企业确实获得了收入。但公司要想清楚自己的价值导向,如果你的销售成天在干循环收入,谁还愿意干那些真正难的事情?

智能涌现:你现在对做 To C 的产品有想法吗?

唐文斌:最终会做。但 To C 比 To B 难得多。To C 最终有两种,一种是做玩具,一种是做工具。现在具身智能 To C 还是在做玩具的阶段,工具现在还有阶段性的,没到那个技术点上。

在 C 端,一个机器人通常要会干很多件事情,用户才觉得有用。但在 B 端,它只要干好一件事,就能持续创造价值。而且 C 端对成本更敏感,对错误容忍度更低。

所以还是先从 B 端开始,等模型能力足够强,成本降下来,再想 C 端的事。

创业十年:愚昧之巅、绝望之谷、自信的平常心

智能涌现:从业务本身来讲,现在和十年前在旷视时,差异点是什么?

唐文斌:旷视当时做了好几个不同的业务,觉得技术可达,市场也可达,就都去做了。但结果是人才稀释了,最强的那些人被摊薄了。

这回到创业公司经常被问到的一个问题 " 如果大厂干了这件事情你怎么办呢?"。但实际上大厂并不是举公司之力在干一件事情,而创业公司可以。

我的体会是,max ( A+B+C ) 基本上等于 max ( A,B,C ) 。就是说,把多个能力简单叠加,效果不会超过把最强的那一个做到极致。

智能涌现:你当下在企业管理中,最不能接受的现象是什么?

唐文斌:我们现在还比较强调开放和谦逊。我觉得我比较不想看到的,是一种叫自负,就是 Ego 很大的情况。

当然,作为创业公司,一旦做好决策,还是要坚决贯彻执行。但在此之前,观点是要被允许开放讨论的。我觉得今天这个世界变化太快了,大家的智慧、开放的心态是能够更好迭代的基础。

智能涌现:你觉得现在的自己,和十年前在旷视时有什么不同?

唐文斌:十年前刚创业的时候,很多东西不懂,是一种 " 初生牛犊不怕虎 " 的状态,觉得自己什么都行。后来被现实教育了,又走向另一个极端——不自信,觉得很多事情不知道怎么做。

再后来,试错多了,慢慢回到一种自信的平常心,不是盲目的自信,也不是胆怯的不自信。

最新评论

没有更多评论了
36氪

36氪

让创业更简单

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容