关于ZAKER 合作
铅笔道 23分钟前

北京跑出未来独角兽:要用“具身 Sora ”做机器人大脑,已融资数千万

访谈 | 铅笔道 邹蔚

撰稿 | 铅笔道 吴欣晓

八月初的世界机器人大会上,宇树科技创始人王兴兴演讲时抛出了引发行业激烈讨论的观点。

他认为,机器人尚未大规模落地的核心原因,并非硬件不足……最大的问题是模型。现阶段看视频生成模型的路线,相比 VLA 收敛概率更大。

而有意思的是,几乎在同一时间,灵生科技宣布开源业内首个支持异步运行的快慢双系统视觉语言动作框架 RealDualVLA,为机器人复杂操作任务提供了高效协同的全新解决方案,而这一方案背后的数据生成技术,恰恰是灵生独创的视频生成模型 - 称为 " 具身 Sora"。

2023 年,在腾讯等互联网大厂有过多年 AI 算法和产业经验的杨洪兵创办北京灵生科技有限公司(简称:灵生科技),专注于具身智能机器人大脑研发,其核心产品为云 - 边 - 端一体化大脑系统(LingBrain),目前已获数千万融资。

杨洪兵认为,具身智能真正的变革,在于给机器人装上一个能独立思考和行动的 " 大脑 " ,而机器人 " 大脑 " 的进化,则来自开源带来的生态繁荣。

灵生科技不仅开源了自研的 VLA 模型,还提出用生成视频、" 跟我学 " 的方式来训练机器人大模型,让它们先像人一样在脑海里 " 推演 " 操作流程,再去执行任务,从而把成功率拉到 95% 以上。

在杨洪兵看来,真正的机器人不应是人跟在后面的遥控玩具,也不是实验室样品,而是能理解语言、感知物理世界、完成复杂任务的 " 生产力伙伴 "。

最近,铅笔道和杨洪兵就机器人大脑开源、具身 Sora、产业化路径、门槛与挑战等话题交流,以下是对话精华。

杨洪兵,灵生科技创始人

声明:访谈对象已确认文章信息真实无误,铅笔道愿为其内容做信任背书。

01 让人形机器人摆脱遥控器

铅笔道:机器人大脑最大特点是什么?

杨洪兵:平时大家使用的豆包、元宝,主要用于对话,属于语言模型。而机器人大模型的目标是让机器人 " 干活 ",从 " 聊天 " 到 " 行动 ",这是一个巨大的跨越。

语言模型只需理解语言,而机器人大模型需要理解物理世界——光照、摩擦、三维空间等,并将这些理解转化为具体动作,比如端茶、搬运、分拣。

这需要大模型与机器人的控制系统紧密结合,从数字世界延伸到物理世界,为机器人赋予 " 思考 " 和 " 行动 " 的能力。

铅笔道:机器人本体这么热,为什么选择做大脑?

杨洪兵:我本科毕业于西安交通大学,硕士在清华,在百度、腾讯等互联网大厂深耕人工智能技术多年。我非常了解大模型的训练、调优和应用,同时很熟悉产业需求痛点。

在当前的机器人浪潮中,AI 领域目前有两个主要方向:一类是像我这样,人工智能背景,从软件和算法出发,去探索软硬件的融合之路;另一类则是传统的机器人专家,出身硬件,逐步向人工智能靠拢。

我们坚信,机器人智能的未来一定是以 AI 为核心。如果只聚焦硬件,那只是传统制造业,而真正的具身 " 智能 " 需要 AI 来驱动。

这也是灵生科技专注于研发 " 机器人大脑 " 的原因,希望让机器人摆脱遥控器,真正实现自主化。

铅笔道:摆脱遥控器,这在机器人行业意味着什么?

杨洪兵:目前,很多机器人仍依赖遥控操作,观众和专家都指出,这更像是 " 遥控玩具 ",而非真正的智能。我们希望让机器人大脑技术突破,让机器人能够自主奔跑,甚至完成复杂的操作任务。

我们公司虽然只运行半年多,但凭借机器人大脑技术,已与国内多家大型客户建立了合作关系,确定了合作和采购订单。就在上周二(8 月 12 日),我们发布了灵生开源 VLA 模型。

铅笔道:为什么要开源 VLA 模型?

杨洪兵:最早,大模型领域多是闭源竞争,缺乏开放合作。DeepSeek 的开源举动打破了这种局面,带动了其他公司跟进。我们希望成为机器人领域的 " 鲶鱼 ",通过开源高质量模型,推动行业进步。目前很多业内公司也跟随开源,这是一个积极的变化。开源不仅加速技术迭代,也让整个生态更加繁荣。

铅笔道:为何闭源仍是主流?

杨洪兵:目前闭源仍是主流。许多公司认为模型是辛苦研发的成果,开源会被他人 " 拿走 ",担心丧失竞争优势。这种观念导致行业封闭。

但我们认为,开源能让更多人贡献模型,最终大家受益。国外在 VLA 模型开源上做得更好,领先的模型多来自国外。

灵生科技旗下搭载一体化大脑 Ling Brain 系统的具身智能机器人

02 让机器人通过 " 推演 " 来学习

铅笔道:宇树科技王兴兴提到人形机器人尚未迎来 "ChatGPT 时刻 ",主要是因为机器人大脑的研发跟不上。卡在哪里了?

杨洪兵:核心问题在于数据匮乏。

语言模型之所以发展迅速,是因为人类几千年来积累了大量文字数据,可以直接用于训练。

但机器人智能需要的是行为数据,而人类数百万年的行为历史并未被系统记录下来。没有摄像头、没有记录设备,过去的行为无法追溯,导致今天机器人智能的数据极度匮乏。

我们的解决方案是通过视频生成技术弥补数据不足。思路简单但实现复杂,我们生成大量行为视频,让机器人从中学习,解决了数据瓶颈的难题。

另一个制约是行业的封闭性。

许多公司捂着自己的模型,形成了恶性循环:数据少导致模型训练难,训练难又导致不愿开源,不开源进一步减缓了行业发展,数据收集更困难。

铅笔道:在开发机器人大脑的过程中,遇到了哪些技术上的挑战?

杨洪兵:最大的制约在于数据来源。

目前行业内主要有两种路线:一种是以智元为代表的真机数据采集,通过实际操作获取数据;另一种是以银河通用为代表的仿真环境,通过模拟生成数据。但这两种方式都有局限。

我们提出了一条新路径——通过视频生成技术,让机器人从生成的视频中学习。我们称之为 " 具身 Sora":先生成一段视频,比如机器人调酒的场景,机器人通过观察视频学习操作,无需实际操作就能掌握技能。这就像人类在做事前会先 " 推演 " 流程,符合思维规律。

此前行业忽略了这一点,直接让机器人 " 干活 ",往往准确率低、成本高。我们通过 " 推演 " 技术,让机器人先模拟学习,大幅提升了效率和成功率。

铅笔道:这种 " 推演 " 的实际效果如何?

杨洪兵:效果非常显著。通过视频生成技术,将机器人任务的成功率从原来的 90% 以下提升到 95% 以上,接近甚至超过行业标准。相对于纯仿真技术,数据构建的成本更低,而且更容易解决 Sim2Real 的 Gap 问题。

铅笔道:听起来很简单,会被竞争对手轻易模仿吗?你们的壁垒在哪里?

杨洪兵:表面上看," 推演 " 技术似乎简单,但实际操作非常复杂。

生成视频时,需考虑光照、摩擦力、弹性力等物理世界中的复杂因素,这些都对技术提出了极高要求。

目前,市场上还没有哪家公司能将视频生成技术做到极致。我们是最早看到这一价值并持续投入的团队。持续的模型迭代和资源聚焦是我们保持优势的关键,这不是一朝一夕能复制的。

铅笔道:大厂拥有强大的 AI 团队和产业化能力,他们会不会也来抢占机器人大脑赛道?

杨洪兵:这是一个关键问题,也是我从大厂出来创业的根本原因。

大厂擅长通用 AI,但要适配多样化的本体并深入产业场景,需要软硬件结合的垂直能力。这比纯软件开发更垂直也更复杂。

我们聚焦于 " 懂 AI、懂本体、懂产业 " 的结合点,这正是我们的差异化优势。

03 机器人大脑产业化三大挑战

铅笔道:如何通过开源模型实现盈利?与本体厂商和终端客户的合作模式是怎样的?

杨洪兵:我们的商业模式基于开放平台,同时提供增值服务。

对于开源模型,如果客户需要进一步优化或定制,我们会提供收费的技术支持,输出模型侧的能力来创造收入。

与本体厂商合作,我们通过增值服务收费;与终端客户合作,我们直接通过为他们赋能大脑技术来收费。

这种模式既支持生态共建,又确保了商业化的可持续性。无论是与本体厂商的增值合作,还是为终端客户提供直接赋能,我们都能找到清晰的盈利路径。

铅笔道:你们定位有点像微软——电脑厂商生产电脑,但操作系统多用 Windows。

杨洪兵:我们确实希望成为机器人智能领域的 "Windows" 或 "Android"。通过开源开放,我们的模型能适配不同形态的机器人本体,就像 Android 兼容各种手机型号一样。

Android 虽然免费,却创造了巨大价值,背后团队也有自己的生存之道。同样,我们也希望通过开源建立行业地位,同时通过增值服务实现商业化。

铅笔道:目前与大公司的合作进展如何?具体有哪些合作模式和场景?

杨洪兵:我们与大公司的合作通常分三个阶段:

第一阶段是付费 POC(概念验证),客户提供资金,我们在他们的场景中生成视频、训练模型并实现操作;第二阶段是小批量采购,验证效果后开始小规模应用;第三阶段是中等规模乃至大批量复购。

目前,我们的大部分合作已完成 POC 阶段,进入小规模复购。这相较于仍停留在实验室阶段的友商,是一个巨大的进步。

铅笔道:能否分享具体的合作案例?

杨洪兵:比如富士康集团某高端网络产品的生产中,我们灵生在运用工业具身大脑,解决分拣中的泛化操作难题。

再比如在某国际 3C 巨头,我们利用 RealDualVLA 解决产线中的精密操作难题,解决了泛化、精度、效率不可能三角。

而在半导体领域,我们和国内头部上市公司建立合作,用具身 Sora 生成场景操作视频数据,快速训练模型实现产业化部署,从而赢得客户信赖。

铅笔道:你们之间的信任怎么建立的?

杨洪兵:大企业客户,决策非常谨慎。一般都要调研了多家同类机器人,从产品稳定性、大模型的泛化性、工程化能力到量产能力四个维度进行评估。

我们在这几个方面展现了差异化的优势,也多次对公司进行实地考察,最终被我们极致的产品力打动。

铅笔道:在产业化过程中,遇到了哪些难点?是如何克服的?

杨洪兵:产业化面临三大挑战。

首先,真实产业环境远比实验室复杂,实验室中的成果往往无法直接应用。我们通过工程化和体系化能力提升,确保技术能适配上千、上万台机器的规模化需求,对精度和稳定性要求极高。

其次,数据不足是个普遍问题。我们利用具身 Sora 视频生成技术弥补了数据缺失,填补了行业空白。

最后,产业环境更关注失败次数的控制,而非成功次数。我们优化了模型推理速度、效率和准确率,确保交付和部署的稳定性。

灵生科技于 WRC 展会精彩亮相

04 做垂域大脑,而非超级大脑

铅笔道:现在很多机器人本体公司也在尝试自研大脑。

杨洪兵:机器人本体公司确实有自研大脑的尝试,追求 " 全栈自研 "。但正如一个人不可能精通所有领域,一个公司在每个环节都做到极致是很难的。本体公司即使投入研发大脑,资源分散,难以达到顶尖水平。这种 " 撒胡椒面 " 式的投入往往导致每个领域都不够突出。专注和极致化才是核心竞争力。即使本体公司有资金,也很难在每个环节都烧出顶尖产品。

铅笔道:从本体公司角度看,把大脑交给外部供应商可能会让他们感到不安。你怎么看待这种顾虑?

杨洪兵:这种不安主要源于闭源模式带来的不信任感。

所以,灵生一开始就选择开源开放策略,我们的 VLA 模型完全向本体公司开放,源代码透明可得,消除了他们的顾虑。

这就像 DeepSeek 的开源策略,吸引了众多厂商使用,因为开源不仅降低风险,还能借助生态的力量加速发展。

开源是行业的未来,自研大脑的趋势会因资源限制和专业分工而逐渐向合作与开源靠拢。

铅笔道:数据安全会成为问题吗?

杨洪兵:数据安全确实是个重要考量。

我们的开源模型是预训练好的,合作伙伴可以基于私域数据进行二次训练(Few-Shot Training),这些数据无需公开。

我们使用的都是公开透明的通用数据,私域数据完全由客户自己掌控,隐私性得到保障。开源的是模型和通用数据,而非客户的敏感数据。

铅笔道:如果未来 " 大脑 " 足够智能,是否会出现一个通用大脑,适配所有行业和场景?

杨洪兵:理论上,远期可能出现这种 " 超脑 ",类似 AGI(通用人工智能),能解决所有问题。但短期内很难实现。

首先,超脑需要极高的泛化能力,相当于人类所有智能的总和,这在技术上几乎不可行。

其次,算力需求将远超当前语言模型的几万倍,成本极高。

最后,必要性存疑——让超脑去做琐碎任务,就像让博士生算 1+1,性价比低。

我们更倾向于专注垂域大脑,在特定领域做到极致,而非追求赢家通吃的通用大脑,那需要数百亿投入且风险极高。

铅笔道:怎么应对多样化的场景需求?

杨洪兵:我们聚焦于泛工业场景。工业场景侧重操作和作业,物流解决搬运、分拣等任务。我们的核心能力是 " 手脑协同 ",通过移动与操作的结合,让机器人达到甚至超越人类的智能水平。

铅笔道:你们接下来的规划是什么?

杨洪兵:首先,我们要服务好头部 KA 客户,回报他们的信任。目前灵生已经和数十家客户建立合作,未来灵生将服务千家以上客户,打造真正能用、易用、好用的具身智能产品,为工业提供优质生产力。

其次,继续推动开源战略,吸引更多开发者基于我们的模型进行二次开发。我们解决了国内机器人开发者缺乏开源大脑的痛点,让他们在我们的平台上更便捷地开发应用。这不仅服务于 B 端客户,也面向开发者,通过共建生态加速产业落地。这是我们的核心优势和战略方向。

铅笔道:未来大脑足够智能后,是否只需通过自然语言指令就能控制机器人?

杨洪兵:是的,我们的目标是实现自然语言处理通用接口(NLI)。用户只需用日常语言下达指令,机器人就能理解并执行。这将让机器人真正融入生活,成为解放人类的生产力工具。

我们目前已可以通过自然语言唤醒机器人。用户下达指令,机器人就能根据指令执行相应动作。这是一个重要的里程碑,让机器人更贴近实际应用场景。