年初,DeepSeek 闪亮登上大模型的银幕,镁光灯下,观众看到了一群年轻的身影。
少年浩气展虹霓,日新月异的 AI 时代,年轻人悄然撑起了半边天。
大模型的新浪潮已翩然而至,具身智能的新浪潮还有多远?
我们与三个具身智能领域的年轻人展开对话,倾听他们的故事,感受时代的脉搏。
他们分别出生于 98、01、02 年代,性格各异,想法迥然。有的还在读博,有的已入业界。
在这三个年轻人的身上,我们找到最大的共同点,是少年郎的痴,敢,爱,狂。他们无一例外,都深深爱着自己的理想。
天下熙熙,皆为爱来。Z 世代,是一个时代,一种品质。
我笑他人看不穿
" 我总忍不住扒开问题上的层层面纱,分析其背后的本质。"
谭恒楷打小就问自己:宇宙的边界是什么样的?人为什么会生老病死?如何才能一直复制人体干细胞?哥德巴赫猜想能不能再往前证一步?
接触具身后,他又问自己:为什么它不 work?为什么它能 work?AGI 的本质是什么?又从何而来?
旅游的时候他也没放过自己。去趟贵州,看到大梵山,他想:如何在物理世界搭建 AGI?去趟新加坡,看到滨海湾,他思:如何在商业世界切入 AGI?
《盗梦空间》里的五层梦境,谭恒楷估计能达到最深一层。
谭恒楷是清华计算机系本科直博,大二开始在朱军的实验室里跟着苏航做强化学习。在苏航的指引下,他渐渐转向具身智能领域,开始研究机器人。
23 年他就能用强化学习和 FCNet 网络架构把机器狗下肢做到特别鲁棒,几乎覆盖了所有真实世界地形,五道口时不时就能看到他的机器狗在爬楼梯。
但谭恒楷认为,人和动物的本质区别在于使用和制造工具,所以机器人最本质的问题还是手。
要解决本质,首先要解决数据和模型问题。谭恒楷和其他几个同学把研究工作分成三个方向:
一,做模拟器大量任务的生成;
二,让 sim2real 能够更高效地表示低维的视觉特征;
三,训练一个有足够泛化性的具身大模型
OpenVLA 是基于自回归,从语言任务里做离散 token 的建模。谭恒楷和团队却选择用扩散模型做连续 token 的建模," 我们发现 diffusion 对动作多峰分布的建模很强,diffusion head 越大,建模效果越好。"
他们训练出了当时全球最大的 diffusion policy —— RDT-1B。
通过整合互联网上上百万条机器人操作数据,他们构建了一个 unified action space,输入当前图像和语言任务指令,输出机器人 action 的轨迹,得到 1.2B 参数量的具身大模型。
他们还出于数据不足的考虑,通过引入大量模拟器数据和 Bounding Box 这样的视觉低维特征引导,提出一个操作算法框架 ManiBox,成功实现了机器人空间泛化的抓取和倒水等操作任务,发现了具身智能空间泛化性的 scaling laws。
工作是完成了,谭恒楷却发现,action 数据的稀缺,才是具身的本质问题。
Sora 的预训练视频有接近千万小时,Tesla FSD 车队也有上千万小时数据,而具身才几千,足足相差数万倍,很难训练出一个泛化性的模型。
并且,长远来看,具身智能有各式各样的硬件本体,会导致机器人的 action 模态不统一,action 输出后也不好在服务器上作快速部署和算法迭代。
谭恒楷当机立断:VLA 去掉 A,我们不要 action 了!
大家纷纷惊掉了下巴。啥?把 action 去掉?那还叫具身智能吗!
谭恒楷想的是,用 image space 替代 action space,让机器人从互联网数据的视频模态中学习物体的运动、接触信息和物理知识。
基于这个想法,他们在今年五月份提出了具有 Unified Observation Space 的具身视频基座模型 VIDAR,来克服数据不足和机器人本体异构的问题。
他们还提出了 AnyPos 模型,用一种叫 ATARA(任务无关的 action)的技术,把 action 从基座模型解耦出来,实现自动化规模化的 action 采集,以此解决 action 数据不足的问题。
花几百万训练成本,干剑走偏锋的事,谭恒楷并非没有纠结过。毕竟在目前的具身领域,机器人通过互联网视频和图像学习物理世界智能还是一个非共识的事情。
一番深度思考后,他说服了自己。首先,要达到涌现,数据采集量的资本开支动辄就要上百亿。其次,就算能采,这个数据量也远不是现在具身公司的数采工厂能采集到的。
" 具身靠共识是走不通的,就像风险投资一样,得靠非共识才行。"
别人贪婪我恐惧,别人恐惧我贪婪,这是资本市场教会他的。
本科毕业后,谭恒楷在今日资本待过一阵,跟着徐新学习了很多投资上的真知灼见。他觉得,单靠一个人的力量很难做出震惊世界的工作,还得借助资本,把实验性预算变成可重复性的生产性预算。实习三个月,他把大模型和具身的创始人基本见了个遍。
" 创业就是把自己 all-in,只有一次全垒打的机会,要选就选最伟大的。如果他的理想、技术、scale up 范式都能让我信服,我就跟他干。"
谭恒楷的目标是:找一个伟大的组织。
找了一圈后他发现——
我的意中人到底在哪!
谭恒楷有点技术理想主义,渴望找到一个属于具身的 DeepSeek," 梁文峰自己都还在写代码,一个十年没训过神经网络的人,他能引领 AI 技术的发展吗?"
很多创始人还是买流量、搞用户增长、做数据飞轮闭环那一套。谭恒楷认为,在 AGI 技术未收敛的时候,数据飞轮对模型能力没有提升。"kimi 最开始也砸钱去买流量,结果 DAU 被 Deepseek 10 天超过,这就是互联网思维套在 AI 时代上的一个错误例子。"
Christensen 在《创新者的窘境》里讲到,所有创新者都没法在下一个颠覆性的时代里占得先机。其中有商业模式的问题,也有技术认知的局限。这就是为什么,Google 打不过 OpenAI,大厂打不过 DeepSeek。
00 后的谭恒楷不吃互联网那一套,正因如此,他认为自己能够突破 " 创新者的窘境 "。大厂的基因决定他们做不了通用智能,打赏、豆包、投流、产品,这些在 AGI 时代都没用。要突破窘境,不是增量的改进,也不是 VLM 变 VLA,而是颠覆性的技术范式。
具身有很多自动驾驶、传统 CV 切过来的人,但人脸识别那一套感知智能毕竟已是上一代 AI,技术上并没有降维打击的优势。谭恒楷认为,自动驾驶、硬件、VLA,都不是 AI 最本质的变量。最本质的变量,是物理世界的智能。
ChatGPT 等大模型的出现,让他看到 AI 真正涌现出来的一些智能。目前具身的 GPT 时刻还未来临,就像 17 年 transformer 刚出来的时候,现在正是百花齐放的探索阶段。" 我感觉周围有热情的年轻人其实并不多,清华搞计算机的同学中就没几个,大家该更狂妄一点,坚持做难而正确的事情。"
谭恒楷上高中的时候,他爸总和他讲,不必为短期波动而焦虑,你要扎根一个方向,并且长期执行下去。当时谭恒楷的竞赛和文化课成绩都不理想,老师同学对他一番热讽加冷嘲。在学校没有倾诉对象,谭恒楷一腔苦水只能回家跟爸妈倒。
" 我爸说过很多话跟段永平很像,他老说,快就是慢,慢就是快。想赚快钱,钱来的就慢,赚慢钱,反而能享受到时间的复利。"
股票,最重要的,是等。人生,最重要的,也是等。
父母这块坚强的后盾,稳稳顶在了谭恒楷的背后。苦读一年,他拿到了 NOI 银牌,全国前 100 名。教练都震惊了,从没见过一年就学到这种成绩的,一般人可都要 7、8 年的时间呐!
谭恒楷喜欢巴菲特,自己也是个价值投资者。他 8 岁时受父亲熏陶开始接触股票,后经徐新的耳濡目染,在 a 股、港股、美股中秉持长期主义的投资理念,和 " 伟大的公司 " 一起成长,年化收益率能达到 40%。
除了股市上的研究,他聊起房市也津津乐道," 我觉得现在北上广的房价已显著高于其内在价值,不是好的投资选项。"
很多具身的研究就像北上广的房子,外表高大上,实则价值虚空,为做 demo 而做,为发 paper 而发。谭恒楷不愿做反复雕花的工作,要做,就必须能为社会带来真正的生产力。
就像老爸跟他讲的:" 与你未来做千亿美元市值的伟大公司相比,几百几千万的房子算得了什么?你需要考虑区区一个房子的问题吗?"
一眼看穿本质,谭恒楷决定,不再考虑区区一个 " 房子 " 的问题。
向前踮起,向后落下
" 要不得!
要不得!
注重调查!
反对瞎说!"
吴铭东的手指停在这段话上,机场的广播已响了两次,催促从北京到上海的旅客尽快登机。他合上书,泛黄的封面,五个黑体字洋洋洒洒:毛泽东选集——第一卷。
因科研工作需求,吴铭东经常往返两地。从北京到上海,他只带了四本书,分别是毛选的一到四卷。
吴铭东觉得自己以前有一点飘,像个不断踮起脚看向窗外新奇的孩童。读读毛爷爷的智慧,可以防止掉入思而不学和先入为主的陷阱。
16 年 AlphaGo 的横空出世,惊艳了还是高中生的吴铭东,他觉得 AI 的终极问题,就藏在机器人灵巧的双手中。入学北大的第一天,每个新生都要画出自己想象中 20 年后的样子。吴铭东画的主题是—— AI 机器人革命下人类文明的变革。
在他的画中,机器人解放了血肉之躯的底层痛苦,使人类可以更专注地解决社会关系、阶级关系、剥削、压榨、不公平等人性之恶的痛苦。由此,文明进入一个新的阶段。
吴铭东刷 B 站视频的时候,常看到很多天赋异禀的人与理想失之交臂,最终在螺丝厂里消磨人生。他总是一阵惆怅:他们只是活着,又有什么错?如果机器人能帮助人类减轻这种无意义的痛苦,那该多好呀。
" 那个时候不知道现实有多难有多苦,只是很天真地在幻想这些事情。"
吴铭东高中就读于湖南雅礼中学," 我们学校出来的都比较有个性。" 为了能够更自由地发展个性,他择校时选了北大,入校后成为北大图灵班的一员。
吴铭东大一的研究方向是生成模型,当时具身智能领域尚未迎来爆发期。2020 年,导师董豪从视觉转型到具身领域。吴铭东也跟随董豪的步伐,投入了具身智能的研究。
2023 年,吴铭东在董豪的带领下进入业界。机器人普遍面对数据稀缺的问题,吴铭东最初的行业目标是采集高质量数据,通过模仿学习的范式用 VLA 做机器人。
可是,覆盖现实场景的复杂性注定要花费高昂的代价采集海量数据。不仅如此,即使拥有非常大的训练集,也无法保证训练出的策略能在新任务上实现 100% 的成功率。
要想提升成功率,机器人得具备主动适应的能力。
从 23 年到 24 年初,董豪和吴铭东一直在研究如何解决适应性和成功率的问题。直到 24 年 2 月份,全球首个真机强化学习(SERL)工作破土而出。
很多论文里,机器人只需 20 次的成功率,就会被认为是百分百成功。实际中,一个机器人在工位干一个月需要几十万次操作,如此庞大的操作次数,无法保证每一次的成功率都是百分百。
SERL 的原理是,让机器人在环境中自动交互,通过奖励信号的反馈取长补短,优化成功率,形成一个闭环的学习能力。吴铭东发现,强化学习是提高真实世界成功率必不可少的一环,而模仿学习是加速强化学习的 " 催化剂 "。
柳暗花明又一村,他开始转向 SERL 的研究。24 年 3 月初,吴铭东在实验室里成功复现了 SERL。
在吴铭东看来,真机强化学习比强化学习更具挑战性。真实世界变量多,交互效率还不到仿真的 1%。在如此有限的采集量下达到百分百的成功率,非常考验算法的设计和系统的工程能力。
" 做真机强化学习的人一定要有软硬结合的能力,不能只会迭代算法,还要会迭代硬件。"
复现 SERL 之后,他召集了一批北大的科研同学,开展对 SERL 的广泛探索。
具身目前还没有探索出一条能真正落地的路线,随着场景扩大,每一步都有不同挑战。吴铭东期待做出一个 data flywheel 式的 AGI,能从猩猩进化成智人、从智人进化到人类,在真实世界中自我迭代。
理想很丰满,现实很骨感。真机强化学习目前主要在二指夹爪上成绩瞩目,若未来用到灵巧手上,一方面要面临探索空间大的难题,另一方面还得让硬件适应算法。
前脚是技术上的窘迫,后脚是量产上的困境。如果团队没有打过量产的仗,哪怕做出技术,也可能吃大亏,试错成本 10 个亿都顶不住。
将登太行雪满山,吴铭东感叹:我还不曾参透这个世界的逻辑。他品尝到了一丝没有调查,没有发言权的滋味。
读博士、刷论文,步入业界后才惊觉,原来这些指标之上,还有一个估值逻辑叫可靠性。他从没想过,可以交付什么产品?几年内达到销售预期?有些人很早就深入调查实体经济和供应链,而自己却连核心零件要选好二供都不知道。
不过,奋发自有时。98 年的吴铭东是一个包袱少、敢试错的有志青年。作为一批在互联网时代成长起来的年轻人,他在技术研究上有明显的优势。吴铭东表示," 年轻人赶上了技术红利,能探索更多有潜力的领域,很多老师都羡慕我们呐。"
他觉得,商场风雨,该老少搭配,干活不累。老一辈可以改进场景适应技术,年轻人可以改进技术适应场景。
具身智能本身涵盖很多学科,视觉表征、强化学习、数据采集、硬件操作,都是药铺里的甘草——少不得一味。吴铭东建议,你最好在每个核心算法领域都有能发 paper 的水平,再找一个软硬件兼备的全栈平台,丰富行业认知。
" 可以多和 senior 合作,抓住身边人。" 他很感谢董豪老师提供的平台,让他拥有一个更全栈性的视角。
吴铭东每月往返北京和上海差不多一两次。去机场的路很长,滴滴司机不时会跟他聊几句。得知他的工作内容后,吴铭东被问到最多的一个问题就是:有了 AI,我还能开车吗?
他反问道:" 你敢让 AI 开滴滴吗?AI 是感受不到痛苦的。它撞车没事,人呢?"
吴铭东觉得,AI 是为人民服务而生的,并非取代。他计算过,普通人一天有 14 个小时的自由时间,假设机器人每天做 4 小时家务,就能帮人类延长 4/ 14 ——也就是接近 30% 的生命!
" 但人类也要警惕过度依赖 AI 的思维模式," 他指出,一个充斥着复杂性的大脑,去模仿一个架构清晰的神经网络,未必是真正的进步。这种单向的趋同,可能会侵蚀人类思维独有的 " 神性 "。
为什么我们觉得残缺的维纳斯美呢?或许 AI 就不这么觉得。人类能够拥抱残缺之美,这就是人类大脑的神秘之处,是—— " 不可复制的神性 "。
本科毕业那一天,吴铭东回宿舍收拾东西。在书桌角落,一摞文件的最下面,他找到了入学第一天的那幅画。看到的一瞬间,他后知后觉,原来当初天真的理想,如今正在慢慢实现。现实曾一度让他迷茫,所幸,他仍有勇气走在理想上。
机器人的问题还在钻研,入学时的画还在家中,他笑着说,
" 或许这就叫神奇的命运。"
他踮起的脚,终于落下。
快哉!乐哉!潇洒哉!
TVB 最经典的台词是:做人嘛,最重要的就是开心啦。
王乾旭也是这么想的:人生只活一次,最重要的就是开心啦。
初看王乾旭三字,内有乾坤,旭日东升——这名字,是算命先生给起的。2002 年的一天,王乾旭呱呱落地。当时王姥姥日思夜想,给外孙起个啥名好呢?
某天王姥姥上街溜达,遇到一个会算命的,那人掐指一算,就叫王乾旭吧!
王乾旭是吉林长春人,从小被放养长大。小学学奥数,别的孩子都被家长逼着老老实实坐在板凳上,王乾旭可不是。他觉得奥数又累又难,王妈妈就跟他说,不想学就别学了,你多玩一玩吧。
初中的时候,王乾旭每天在课堂外探索人生,跟形形色色的人聊天。在一次考试中,他 " 阴差阳错 " 地考了年级第一。王乾旭突然觉得,考第一挺好,大家都夸我,那就再考一考。
于是,他再次 " 阴差阳错 " 地考进了吉林省最好的高中里最好的班,周围人水平噌噌噌地一下子拔高不少。这时候,可不能再阴差阳错了,他开始拼命努力学习。
" 我的学习方法都是和好朋友讨论出来的 ",王乾旭说。他们高中班有 20 几个考进清北的同学,贡献了充分交流的土壤。从那时开始,王乾旭就知道交流与合作的重要性。" 真理是越辩越明的,跟别人合作交流才能改变自己。"
考进北大后,王乾旭在专业探索上花了不少时间。他高中时最喜欢的学科是物理,但跟同学老师讨论后,他发现物理研究并非自己所想,倒是计算机的广袤天地更容易让他找到兴致所向。
上大学前都没怎么用过电脑的王乾旭,不作他想,一步踏进计算机的大千世界。
北大像图灵这样拔尖的班都有轮转,王乾旭所在的实验班也有到三个科研组轮转的机会。大二下学期他转入董豪教授的 Agibot 实验室,董豪当时正跟杨耀东合作机器人,机缘巧合之下,王乾旭开始接触具身智能。
当时国内研究灵巧手和机械臂的人很少,董豪刚好就是一个。但是这个硬件太新,连经验丰富的学长都不太会用。寒假时大多数人都回家了,没剩下几个人的实验室,正等着新鲜事物填补空白。王乾旭灵机一动,跟朋友合伙:要不咱试试!
其实王乾旭的主要兴趣不在硬件,而是怎么利用硬件开发算法,但这次心血来潮的研究,触发了他对具身的兴趣。他后来回忆,真是幸运啊,这么早就找到了自己喜欢的东西。
大三下学期,王乾旭从董豪的科研组转进朱毅鑫教授的实验室 CoRe。在朱毅鑫的推荐下,王乾旭开始和斯坦福的机器人实验室进行远程合作,并结识了 Jeannette 教授。教授很喜欢王乾旭,愿意让他去斯坦福做暑研。
不管是朱毅鑫还是 Jeannette,都极大程度地给予了他定义科研的权利。在自由的环境下,王乾旭得以 " 野蛮生长 "。在投稿 ICLR 的一篇论文中,王乾旭研究了一种叫蒸馏特征场(DFF)的方法,抛去传统的 NeRF 技术,仅用点云作为载体,成功将 2D 的信息通过 3D 的特征来表示。
这种高维信息的点云特征场可以定义三维中每一个空间点的特征,从而编码机器人各种各样的几何形态和轨迹。这样,特征场就有了非常好的场景泛化性。
在斯坦福暑研期间,王乾旭隔壁的实验室招了很多中国实习生,他隔三差五跑去隔壁组跟别人唠嗑,一个月下来跟大家都混得挺熟。
在交流过程中,王乾旭发现动画生成的 " 人 " 虽然操作不精确,但每一个动作都非常符合人的认知,而且动画领域对语义和人体运动的理解甚至比机器人领域还要细致。
他突发奇想,诶!可以先生成语义作为一个参考轨迹,让机器人和人的认知达成一致,然后再把物理和控制信息补齐。
但是,语义的信息很具体,而且频率高。一个机器人拿杯子,就要涉及到接触、拿起、杯子的几何形状等等。面对纷繁复杂的信息源,模型如何从不同的数据路径中提取到有价值的信息并进行组合呢?
王乾旭想,可以设计一个接口,把视觉模块和控制模块解耦,让它们分别从不同的数据源中学习信息。
这个构思源起于 MIT 副教授何恺明。在美国暑研期间,王乾旭在学姐邓丛悦的介绍下,与何恺明在 MIT 的校园里见了一面。何恺明虽专攻视觉,但对机器人也有诸多想法,俩人聊了一个多小时。
" 何教授的理解很透彻,我做 interface design 的思考很多来自于那天聊天中的启发。见面那天的 kaiming 一身 T 恤牛仔裤,特别平易近人。"
王乾旭觉得应该探寻不同形态机器人操作中的共性,尝试定义统一的数据表示方式。让机器人像视觉模型一样可以通过世界上的每一个人收集数据,学到的知识又可以应用到每一个机器人。
他表示,有做 interface 想法的人不少,但真正在做的不多。" 这才是 exciting 嘛,如果所有人都一样,那就很没劲。"
今年年初,王乾旭收到了康奈尔大学的博士 offer,准备继续追逐自己的科研梦。他希望未来能够成为一个肩膀,别人踩着他走到了更远的地方。" 当肩膀被踩是一种幸福,因为踩得最多的永远是那个最厉害、最正确的那个人。"
成功的人不一定快乐,王乾旭是功成不必在我,功力不可唐捐。做一件真正值得、热爱、快乐的事情,事了拂衣去,何乐而不为?
他希望可以在科研室里待到 90 岁。" 我觉得李嘉诚 30 岁后就可以不用做生意了,但是他一直做到 90 岁!你说这人为什么怎么老不知足啊?因为他喜欢,就像我喜欢科研一样。"
追求快乐的小王,也有不快乐的时候。考进北大后,王乾旭发现周围很多同学都是竞赛出身,从小就目标清晰。两相比较下,他发现自己选 " 错 " 过很多东西。
" 选择本身没对错,当你知道自己想干什么后,选择就有了对错。" 他后悔小时候没参加竞赛,也后悔没更早进科研组,还后悔自己视野不够,比如参加两次国际学生会议都没提前了解参会教授的信息。
但错误的选择也让王乾旭明白了人生的节奏和容错。人生容错很高,知道自己想要什么来评价选择对错本来就很不容易,保持好的心态和节奏,下次不要做错就好。
当生活中的欲望、烦恼、压力没法平衡的时候,王乾旭会去做心理咨询。他觉得国内现在竞争压力太大,自己 " 选择错误 " 的轨迹其实是人生长河中正常的经历,但是很多人都不允许你走错一步。心理医生虽不能帮他解决问题,但是能帮他调整心态,让他自己更好地解决问题。
王乾旭的微信头像是一张手写图片:我能行。写于 2017 年,当时王乾旭还在读初中,有个老师跟他说,就你这分,肯定考不上师大附中。他特别不高兴,凌晨 2 点都没睡着,忿忿不平中想着,你不相信我,可我相信我!
他当即一骨碌爬起来,把自己的 QQ 头像换成了这张图片:我能行。
上高中后,王乾旭从 QQ 换成微信,头像的图片却保留至今。除了初中考试打的鸡血,他觉得我能行这三个字还有更深刻的含义。
初中的我能行,是相信自己能考好;后来的我能行,是相信自己可以做到;现在的我能行,是相信自己拥有追求梦想的勇气和底气。他觉得,我有这么好的智慧,得做一些更有价值理想的东西。
" 我可不是一个普普通通的人," 他这样评价自己。
找到,且知道
电影《四百击》的最后一幕,14 岁的安托万终于逃离了少管所,来到一望无际的海边。他找到了自由,却不知该走向何方。
少年自当扶摇上,少年应有凌云志,少年壮志不言愁,年少的我们,理当鲜衣怒马,一往无前。
可是,冲的背后,更重要的是知。
在向具身智能前行的征途中,三个年轻人的热烈、迷茫、思索,汇聚成他们对 AI 世界的自我认知。
知时代,
AI 时代,年龄和资历如过眼云烟,年轻人可以在非常短的时间内经受完整的科研训练,抓住技术的爆发点扶摇直上,闯出一片天地。
知方向,
VLA 风头已过,强化学习或将成为落地咽喉。颠覆的技术范式,得靠 " 非共识 " 去突破。
知自己,
谭恒楷的知,是看破庐山真面目。
吴铭东的知,是自知不知是为上。
王乾旭的知,是心明志远行自坚。
安托万还不知道自己的立身之所,三个 Z 世代的年轻人已在具身大地上撒下了几粒种子。
雷峰网