对话原力灵机唐文斌：我不喜欢讲我不信的话，也无法成为我不想成为的人

文｜富充

编辑｜苏建勋

创业满一年，唐文斌的身上依旧保留着旷视时期的印记，在和我们的对话中，他时常说到" 本质 "这个词——那是旷视内部的一个 " 流行词 "。

清华 " 姚班 " 毕业之后，唐文斌和同学印奇、杨沐在 2011 年创办了旷视科技。在这家 AI 1.0 标志性企业中，人们喜欢追问 " 本质 "。

创业旷视的 14 年里，唐文斌经历了 AI 1.0 浪潮的完整起伏。从高歌猛进的业务扩展，到屡次与上市失之交臂，这些经历也打磨着他对 " 本质 " 的理解。

关于对旷视最重要的反思，唐文斌认为是摊子不要铺得太大，而是应该先集中全力，把一个最有优势的业务做透。

近来履新阶跃星辰董事长的印奇，在不久前的采访中也有过类似表达——商业模式本质上是做排除法。看过了热闹，大家更清楚一个道理：与其做很多事，不如想清楚什么不做。

2025 年 3 月，唐文斌创办具身智能公司原力灵机。二次创业中，唐文斌更会做减法了。

过去一年中，原力灵机没有跟业界一起卷订单规模，也没有急着推出一个 " 软硬全栈 " 的故事提升估值。

原力灵机的第一年，把主要精力放在模型开发，以及数据、框架、评测等 AI 基础设施工作上。因为在唐文斌看来，这些是决定迭代效率的基础。

" 一直跑在前面 " 的迭代能力，和 " 短暂的领先 " 相比，是更本质的竞争力。

当被问及会不会因为节奏 " 慢 "，而受到投资人压力时，唐文斌对《智能涌现》说：" 有些公司确实通过一些浮夸的方式获得了不错的收益，我们也困惑过，要不要也这样做。但后来想明白了，我不是很喜欢讲我不信的话，也无法成为我不想成为的人。"

他把自己这些年的变化概括成三个阶段：" 初生牛犊不怕虎 " 的盲目自信，被现实教育后 " 觉得很多事情不知道怎么做 " 的迷茫，以及如今抵达的 " 谦虚的自信 " ——知道自己知道什么，也非常清楚自己不知道什么。

用 AGI 通用机器人开启生产力极大富足的时代，是唐文斌当下心中的星辰大海。不过，这一次的落点更脚踏实地：随着模型能力提升逐个解锁场景，先把自己在旷视时期就有积累的物流业务做到商业闭环。

以下是唐文斌与《智能涌现》的对话，内容经作者整理。

△原力灵机 CEO 唐文斌，图片：采访人提供

创业第一年，关键词：迭代

智能涌现：回顾原力灵机创业这一年，你脑子里冒出来的第一个词是什么？

唐文斌：迭代。过去一年里，很多东西都在变——技术认知、数据方案、场景选择、融资节奏等等。和历史上的经验一样，具身智能的变化也比我们预想的要快。

我们今天面对的，依然是一个充满未知的领域。在今天的具身智能行业里，一家公司本质的竞争力，不是今天有多领先，而是迭代效率有多高。谁能在变化中更快地发现问题、修正问题，谁才可能一直跑在前面。

智能涌现：原力灵机的主创团队来自旷视，经过旷视十多年的创业经历，你仍然觉得当下的创业有很多意料之外的变化吗？

唐文斌：是的，即便我们从 AI 1.0 时代积累了很多经验教训。

旷视时期我们逐渐解决了计算机视觉、自动驾驶、大模型等领域的问题，到现在进入具身智能领域。每一次身处其中的时候，我们并不知道明确的路线是什么，但历史上每一次的感悟都是，技术变化的频率比我们预期中更快。

对于现在我们所投入的具身行业也是一样，我们依然在解决很多未知的问题，这需要我们快速迭代自己的想法。

智能涌现：再次创业，你还会有兴奋感吗？如果有的话，从何而来？

唐文斌：我觉得无论在旷视还是现在做机器人的创业，都是在 " 把这个世界应该被解决的问题做得更好 "。这也是我们所说的工程师的兴奋感，叫 " 我能解决这个问题 "。

从旷视时期，我就形成了一套朴素的观念，叫做 " 技术信仰，价值务实。简单来说，我们没有创造新需求，如果创造一个居家做情感陪伴的机器人，这相当于创造了一个新需求。但我们目前在做的事情，而是用更好的工具解决已有问题，比如让机器人去解决、替换原来工业场景里人类做起来繁杂、危险的工作。

智能涌现：这可能是一个非常务实的定位，但是听起来会不会没那么 " 性感 "？

唐文斌：我觉得要看怎么定义 " 性感 "。我认为今天我们不管在生活和生产的过程中，我们有大量的问题可以有更好的解法。解决好这些客观存在的问题是可以产生巨大价值的，无论是商业价值、社会价值，还是用户价值等等。

如果真的创造出了 AGI 通用机器人，人类会进入一个生产力极大富足的时代。这种很高的技术期待本身，就是一种星辰大海式的愿景。

找好场景，解开 " 数据死锁 "

智能涌现：现阶段，具身智能的本质问题，你觉得是什么？

唐文斌：是模型，模型能力够强，才能解锁场景，而模型的突破点在数据。

数据本质上是在消灭不确定性，真正有价值的是 Outlier 的数据。你只有让机器人进到真实场景，它才有机会犯错，见到更多 " 错题 "，减少不确定性。

智能涌现：关于数据采集，现在有很多方法，既有数采工厂，也有很多具身公司开发素材手套、胸前摄像头等让人类在实际工作采集数据。你们的采集方法如何？没有自己开发数采工具吗？

唐文斌：我们也有自己的数采工具，也买外面的数采工具和数据。但工具是方法，这些解决方法不本质。

本质的做法，还是要让机器人在真实场景中把数据飞轮转起来，收集到 Failure Case。就像今天自动驾驶的数据，平稳运行的数据并不稀缺，真正有价值的是接管的数据，就是自动驾驶算法不 Work 时的数据，才是 AI 真正要去学的东西。

现在采用的无论是遥操作还是以为人中心的视频、数采手套等方法，实际上是在模拟场景，但它并不是收集机器人真实和物理世界交互的工作场景数据。也就是说，通过这样的数据，开发者并不知道机器人靠今天的逻辑，到底在什么地方会犯错。

智能涌现：不进场景就没有你说的 Outlier 数据，没有多样的数据就训不出一个能进场景干活的好模型——这是一个 " 死锁 "。这个死锁怎么解开？

唐文斌：要找到适合当前机器人能力的场景。现阶段，我们要把机器人当成学徒工，而不是期望很高的正式工。

我们总结了几个找场景的条件：第一，容错——犯错后果不严重，或者有人兜得住；第二，对节拍有容忍度——机器人现在完成任务的时长不固定，但如果完成得慢，任务流程也不会因此崩溃；第三，长时间作业——否则客户采购的性价比算不过来；第四，能泛化，如果任务太专用，非标自动化基本就搞定了。

智能涌现：你说现在原力灵机主要在做物流场景？是因为它更容错吗？

唐文斌：物流表面上看不容错，比如你买瓶可乐，没发给你，这就是错了，客户会投诉的。但物流有很多流程环节，可以通过系统设计变成容错：让机器人先干，失败了人再接管上。

而且物流的节拍要求没那么强，一天大概有两到三个波次。完成着两三个波次就可以，至于到底是 9 点干完，还是 10 点干完，不对整体造成太大影响。

智能涌现：所以你在场景上的策略是 " 沿途下蛋 "？

唐文斌：我的模型最终是追求通用能力，并不是说我是朝着某个场景去的，只是在模型能力提升的过程中会逐渐解锁一些场景。

所以，比起沿途下蛋，我更喜欢形容当前的模型和场景是个 " 夹角关系 "。横轴是场景，斜着向上的这条射线是模型能力，两者不是完全分开的，也不是一开始就重合的。只是随着模型越来越强，它能覆盖的场景会越来越多，这个夹角会越来越小，最后趋向一致。

△唐文斌在黑板上画起模型能力与场景解锁的 " 夹角图 "。横轴是场景，斜着向上的射线是模型能力，模型能力的提升，最终会落地在场景上。图片：作者拍摄

" 软硬全栈 " 不是衡量估值的本质问题

智能涌现：旷视时期，你就聚焦物流场景，做原力灵机之后再输出给客户的方案、产品会有不同吗？

唐文斌：简单而言，无论是我们当年在旷视做的物流机器人业务，还是现在很多同行在做的方案，本质上解决的都还是 " 搬运 " 的问题。也就是说，机器人主要替代的是人的 " 腿 "。

但真正更复杂的 " 手上动作 "，其实一直没有被很好解决。比如抓取、拣选、拿起、放下、打包，这些都还大量依赖人工。我们现在做原力灵机，更希望让模型逐步具备处理这些手部操作的能力，再和现有系统联动起来，形成一整套方案。

智能涌现：那原力灵机自己会做 " 手 " 的硬件吗？

唐文斌：" 手 " 其实是个广义的概念，我们叫末端执行器。两指的夹爪是一种，三指是一种，四指、五指也都是。

我不认为一种构型可以吃遍所有场景，有一些场景，用三指手就可以完成任务，成本还比五指手便宜。所以比做不做手更本质的是，要明确自己服务的场景，真正需要的是什么。

智能涌现：如果没有自己研发硬件，或者如果不是所谓的 " 软硬一体 " 全栈公司，会不会影响估值？

唐文斌：我觉得这不是本质问题。做不做硬件本质上都只是手段，关键还是看你想解决什么问题。

如果某个硬件环节和我们的核心结构设计、产品主线强相关，而且现成供应链满足不了需求，那我们当然会考虑自己做；但如果外部厂商愿意配合定制，能够满足我们的要求，那我也没有必要什么都亲自下场。毕竟公司最宝贵的精力，还是应该放在更有差异化的地方。

所以核心不在于 " 你是不是一定要自己做 "，而在于你有没有自己做的能力。如果你完全没有这个能力，就很容易被供应链拿捏。但如果你具备自己做的能力，就可以主动选择——哪些该自己做，哪些可以交给合作伙伴。就像苹果公司，也不是自己生产。

最好的具身智能模型，应该从 Day 1 就接触物理世界数据

智能涌现：你们在 DM0 发布会上，强调这是 " 具身原生模型 "，还和阶跃星辰做了数据融合训练。这算你们的 " 非共识 " 吗？

唐文斌：与其说非共识，不如说这是别人做不了的事。

我们觉得最好的具身智能模型应该从 Day 1 就开始接触物理世界的数据。互联网数据、自动驾驶数据、机器人数据，三类数据混在一起训，模型的上限会更高。

但三类数据在不同公司手里——互联网公司、自动驾驶公司、机器人公司。只有特斯拉、小米等少数大型公司才会同时拥有这三类数据。

我们能做，是因为和阶跃星辰恰好是有底层信任。这不只是技术问题，需要合作公司之间有数据定价、资产归属、算力分摊等方面的深度信任。

△原力灵机 DM0 模型包含互联网、自动驾驶、具身三类数据的多源混合训练，图片：采访人提供 "

智能涌现：为什么最好的具身智能模型，应该从 Day 1 就接触物理世界数据

唐文斌：你可以先把模型想象成一个初中毕业生，接受了九年制文化课，然后被拉去练三年体育，要变成 " 体校生 "。这个学生没有从小练体育，体能上限有限；狂练三年体育之后，文化课又落下了。所以最后得到的，通常是一个上限不高的体校生。

回归到数据上，问题是这样的，今天行业里大多数具身模型，本质上还是先拿一个开源的 VLM 模型做底座，相当于一开始接触的主要是互联网数据；然后再加入动作数据，微调成一个 VLA。

这样做，一方面会限制模型在真实世界中的能力上限，另一方面也容易在后期训练中出现 " 偏科 " ——为了强化动作能力，反而损失了一部分原本的通用理解能力。

所以我们更认同一种 " 具身原生 " 的训练方式：从 Day 1 开始，模型就应该见过足够多的物理世界数据。

智能涌现：现在行业里经常把 VLA、世界模型这些能力拆开来讲，或者认为世界模型要替代 VLA。你们怎么理解它们的关系？

唐文斌：我们认为，世界模型和 VLA 应该是一套统一的架构，而不是谁替代谁。

现在很多人的思路是：一个世界模型负责预测 " 接下来世界会变成什么样 "，另一个 VLA 或策略模型负责决定 " 我应该做什么动作 "。但我们的理解不一样——更好的方式，是在同一个框架里同时完成这两件事：它既在预测动作，也在预测这个动作之后世界会发生什么变化。

因为物理世界本来就是有因果关系的。比如你伸手去抓一个物体时，脑子里其实已经对它的重量、抓取方式和需要多大力形成了预期；但真正抓上去那一刻，如果发现它比预想中更重，你就会立刻根据触觉和受力反馈调整动作。这个过程中，你对世界的理解和你的动作决策，本来就是一体的。

我们理解的世界模型也是这样。它不应该只是一个 " 预测下一帧画面 " 的视觉模型，而应该和 VLA 融合在一起，形成一套统一的训练框架。这里面还需要多模态信息，比如上面例子中所说的触觉（力反馈），也需要有 Memory，才能把任务真正做完整。

这也是为什么我们一直强调，具身智能模型最好从 Day 1 开始就接触物理世界数据——它要学的不是孤立的动作，而是动作、反馈和世界变化之间的完整因果关系。

智能涌现：你们联合 Hugging Face 发起了 RoboChallenge 这个具身模型的真机 Benchmark，也引起了业内对原力灵机 " 又做裁判又做选手 " 的争议。所以，在你看来做评测的必要性是什么？

唐文斌：其实评测是非常重要的。我们内部有一句话说叫，如果你花了 50 块钱，这个模型应该花 20 块钱去评测一下它。否则如果你自己都不知道如何衡量他的好坏，我们先不说衡量大家，我们就先衡量自己，如果都没有这根尺子。你如何能够把这事儿做好？

△ "RoboChallenge 最新评测榜单（截至 2026 年 3 月 30 日），图片：采访提供 "

智能涌现：如果你的模型真的好，最后客户买单了，这不是一种更实际的 Benchmark 吗？

唐文斌：对，但这个反馈周期很长。而且，其实今天客户买单，可能是出于很多种原因。客户不买单的模型，大概率不是一个好模型；但好模型不一定会得到客户的订单。

以及当前可能模型在某个场景能力很强，但如果想考察它通用场景中的泛化能力，那还是需要一个 Benchmark 评测。

务实与做自己

智能涌现：你们在今年 2 月 10 日，成立近一年的时候，才正式发布了第一款模型。和行业普遍节奏比，会不会有点 " 慢 "？

唐文斌：我觉得今天的一些短暂的领先并不本质，比如别人一成立就发布了模型，或者 DM0 目前在 Benchmark 上的表现比较好。但当前的领先还说明不了什么，过两天可能就被追上了。

现在的本质是因为很多东西都在变化，真正重要的是迭代效率——你内部能不能更快地发现问题、解决问题。如果迭代效率比别人高，你就能一直跑在前面。

智能涌现：你曾经说具身智能的 "ChatGPT 时刻 " 是，" 一个场景 1000 台机器人，持续运行 "。这个标准怎么来的？

唐文斌：一个场景 1000 台持续运行，意味着两件事。第一是业务流程闭环了，不用人过多参与的情况下，机器人也可以持续完成任务；第二是，账算明白了，客户愿意批量化使用。

达到这个水平，才能说是真正地被客户用起来了。

智能涌现：所以现在有真实的具身智能持续运行的场景吗？

唐文斌：持续运行的商业化场景其实都没那么快。我觉得大家对场景还是要有一定的耐心。但我觉得今年，最晚明年，至少在一线场景上，会出现真的商业化。

智能涌现：那你怎么看待当下具身行业里，那些 " 客户采购具身智能公司的机器人组建数据采集工厂，又将采集的数据卖给机器人公司 "，从而做大收入流水的现象？

唐文斌：这实际上是一种 " 循环收入，我不能说这些做法不对，这些企业确实获得了收入。但公司要想清楚自己的价值导向，如果你的销售成天在干循环收入，谁还愿意干那些真正难的事情？

智能涌现：你现在对做 To C 的产品有想法吗？

唐文斌：最终会做。但 To C 比 To B 难得多。To C 最终有两种，一种是做玩具，一种是做工具。现在具身智能 To C 还是在做玩具的阶段，工具现在还有阶段性的，没到那个技术点上。

在 C 端，一个机器人通常要会干很多件事情，用户才觉得有用。但在 B 端，它只要干好一件事，就能持续创造价值。而且 C 端对成本更敏感，对错误容忍度更低。

所以还是先从 B 端开始，等模型能力足够强，成本降下来，再想 C 端的事。

创业十年：愚昧之巅、绝望之谷、自信的平常心

智能涌现：从业务本身来讲，现在和十年前在旷视时，差异点是什么？

唐文斌：旷视当时做了好几个不同的业务，觉得技术可达，市场也可达，就都去做了。但结果是人才稀释了，最强的那些人被摊薄了。

这回到创业公司经常被问到的一个问题 " 如果大厂干了这件事情你怎么办呢？"。但实际上大厂并不是举公司之力在干一件事情，而创业公司可以。

我的体会是，max ( A+B+C ) 基本上等于 max ( A,B,C ) 。就是说，把多个能力简单叠加，效果不会超过把最强的那一个做到极致。

智能涌现：你当下在企业管理中，最不能接受的现象是什么？

唐文斌：我们现在还比较强调开放和谦逊。我觉得我比较不想看到的，是一种叫自负，就是 Ego 很大的情况。

当然，作为创业公司，一旦做好决策，还是要坚决贯彻执行。但在此之前，观点是要被允许开放讨论的。我觉得今天这个世界变化太快了，大家的智慧、开放的心态是能够更好迭代的基础。

智能涌现：你觉得现在的自己，和十年前在旷视时有什么不同？

唐文斌：十年前刚创业的时候，很多东西不懂，是一种 " 初生牛犊不怕虎 " 的状态，觉得自己什么都行。后来被现实教育了，又走向另一个极端——不自信，觉得很多事情不知道怎么做。

再后来，试错多了，慢慢回到一种自信的平常心，不是盲目的自信，也不是胆怯的不自信。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

对话原力灵机唐文斌：我不喜欢讲我不信的话，也无法成为我不想成为的人

宙世代

一起剪

最新评论

36氪

热门推荐

企业资讯

热门订阅 换一批

AI价值官

医线Insight

局市

银莕财经

挖贝网

中保新知

GMIF创新观察

热门订阅换一批