蓝鲸新闻 8 月 4 日讯(记者 武静静)" 你会对一个人说‘你创造不了价值就是废物’吗?大概率不会。但人们却常常用这样的逻辑看待机器人。" 首形科技创始人胡宇航说,他语气平和,但观点锋利。
在胡宇航看来,未来的人形机器人不该只是冷冰冰的工具。它们的价值,也不该只用 " 能否提升生产效率 " 来衡量。在人类社会逐渐走向自动化与智能化的今天,他给出了一个不同的答案:"For joy,让大家快乐。"
今年 5 月 13 日,胡宇航在自己的抖音账号上发布了一段人脸机器人 "Emo" 的首发视频。7 月 14 日更新的视频中,他在 Emo 的眼睛下点上了一颗泪痣,在镜头前,这个机器人露出困惑和好奇的神情,仿佛真的有了情绪、有了生命。
作为首形科技的创始人,胡宇航正在带领一支 20 人的团队,从 " 人脸 " 这个独特切口切入人形机器人赛道。他希望让机器人不只是 " 像人 ",更要 " 有人味儿 "——会察言观色、会面部共情,甚至能以拟真的表情参与表演、陪伴、互动,而不是机械重复任务。" 我们关注的不是机器人模仿人类,而是让机器人真正走进人的世界,开启‘类人共情’和自主学习的新纪元。"
这样的理念并非空中楼阁。胡宇航是哥伦比亚大学博士,长期研究机器人自我建模和类人交互系统,曾在机器人顶刊《Nature Machine Intelligence》与《Science Robotics》连续发表论文,提出机器人可以通过看自己的视频自我建模,也能预测人类面部表情并作出自然回应。他所主导的 CharacterMind 系统,已能让机器人自主生成带有情绪反应的面部动作。
今年 6 月,首形科技完成了新一轮融资,由招商局创投与深创投联合领投,五源资本等跟投。融资的背后,是这个仍处于研发阶段的项目,正在一步步接近真实可行的应用落地场景:从桌面级陪伴机器人,到服务行业中的 " 表演型 " 机器人,再到未来可能延伸到本体的具身智能系统。胡宇航说:" 我们不着急讲一个所有人都听过的故事,我们想做一条不一样的路径。"
在接受蓝鲸科技专访时,U 航详细讲述了他如何从科研跨入创业,为什么选中 " 人脸机器人 " 作为起点,如何思考当前具身智能的发展路径与泡沫争议,创业路上如何用内容影响用户。
以下为对话实录:
一、从科研到创业:在人脸机器人中寻找范式突围
蓝鲸科技:为什么选择人脸机器人这个方向创业?
胡宇航:这个方向我们三年前就想通了。在读博时我做过机械臂、四足机器人、桌面整理等各种机器人项目,所以我很清楚物理数据是最大瓶颈。我们非常谨慎,不盲目 " 卷 " 大潮。做人脸,是因为它跟多模态大模型天然契合,有视觉、有声音、有表情,是人机交互最直接的入口。
如果能自主学习,那就不再需要大量数据采集。人类小时候学技能也不是靠几千次训练,而是靠举一反三。所以我们希望在人脸机器人这个温室里,先验证这条路径,然后再拓展到手、到身体。
有些 AI 工程师还困在旧范式里,认为具身智能也需要大数据。但现实是,采集数据非常贵,也很不现实。你不可能把所有事物都采一遍数据,所以要从方法论上找到新路径。
我在 WAIC 上和很多同行、青年学者交流,大家都在反思旧范式的局限。有个内部讨论,6:1 的比例认为目前的范式和数据无法真正让 AI 理解物理世界。
我们也不指望所有人走同一条道路,而且大家各有坚持去探索出新范式。对于数据驱动的方法,行业确实也在建立数据标准,比如上海那边有人牵头做数据共享。我们走不同的路,也是给行业提供更多可能性。
蓝鲸科技:首形科技目前产品的的进展?
胡宇航:我们目前还没有正式的产品,都还处于研发阶段,所以暂时还没有对外销售或投入使用的项目。未来会推出更多。
做人脸机器人是一个交叉极强的学科。这也意味着目前创业公司必须自己从各个层面突破,市面上的电机供应商很难满足需求。我们自主研发了微型电机等核心产品器件,此外整个供应链包括材料部分都在部署。人脸方面我们也采用类似硅胶材质,不过每家都有自己的配方、软硬度和耐久度。 这属于新材料领域,团队里还专门有化学背景人员参与。
蓝鲸科技:未来会考虑做本体吗?
胡宇航:未来我们可能会自己去拓展下半身的研发。从脸拓展到整个本体。
整个人形机器人就像汽车工业,不可能每家都做轮胎一样,每个环节都有自己的上下游。我们也是找到了自己的切口。这是时间问题。一开始我们专注于人脸,不碰下半身。等头做好后,才会探索后续路径。两年内专注机器人头部。
蓝鲸科技:未来人脸会搭载在哪些载体上?
胡宇航:有很多载体,比如桌面半身像、收藏品。人脸不一定要做得那么大。可以做小的。未来陪伴机器人会被越来越重视,因为孤独和情绪需求在放大。
蓝鲸科技:人脸机器人的落地主要面对哪些场景?
胡宇航: 我们认为人形机器人在服务行业会有很多机会。尤其在 " 表演 " 这个方向,它是一个比较快能够实现落地的场景。因为机器人本身就长得像人,有所谓的" 类人共情价值 ",所以哪怕它只是踢个球、走路像老太太,人们也会有代入感,觉得像个人,具有关注度。我觉得这里是会有一些商业化可能性的。
目前包括文娱、艺术、机器人公司、AIGC 公司、游戏、电影,还有科研院校。他们都有很强的意向来采购我们的人脸模块或者共同开发算法。
表演是第一步,我们未来还会做更多的拓展。但目前阶段,表演是最容易落地的。表演类项目可以以 To B 的方式合作。我们也会有 To C 的产品,特别是 " 桌面陪伴型 " 的机器人,我们会自主做一款产品。
蓝鲸科技:团队目前大概多少人?主要在哪儿?
胡宇航:大概 20 人,主要在北京,目前正在杭州开设新总部。
蓝鲸科技:怎么看待当下具身智能以及人形机器人的发展,你觉得有泡沫吗?
胡宇航:我觉得行业在往一个更好的方向发展,不觉得泡沫会很快到来。我不太喜欢那种急躁的唱衰声,技术迭代是需要耐心和过程的。
看怎么定义泡沫。如果是伪需求当然是泡沫,但如果底层逻辑能走得通,那为什么是泡沫?
幻想人形机器人进家庭可能还很遥远,所以我更倾向于从 " 类人共情 " 的角度切入,比如表演型项目。这些看似没有直接生产力,但它能打开商业化入口。逐步扩展场景和稳定性。而工业场景中那些采集数据的探索,也必须一步步来。
我对我们做的事是有信心的。因为我们不是无底洞式烧钱。我觉得做具身 AI 这一块一定要谨慎,尤其是在技术范式还没定型的时候。做人脸机器人这个方向,我们认为是可以先商业化落地的。
二、真正的人脸机器人,不靠外形,而靠自然表情动作和共情力
蓝鲸科技:你们最近见了不少投资人,从投资人视角看,人脸技术的进展和未来规模化落地,他们怎么看?
胡宇航:很多投资人觉得现在还早,没看到明确的价值。 每个人思路不太一样,我很难归纳。但大多数人对人形机器人创造生产力的观点还是保留的。目前脸部表情生成算法国际上也还在早期阶段,离商业化还远。
蓝鲸科技:你做的人脸机器人跟别家最大不同是什么?
胡宇航: 我们最大的不同是:我们的人脸可以 " 自主完成动作 "。而且这些表情是更仿生、更自然、更友好的。这就决定了我们和别人的差异性。这个领域还是处于非常非共识的阶段。
蓝鲸科技:什么是人脸机器人真正的壁垒?
胡宇航:外观只是其次。最重要的是算法和控制。如果脸再美,但动起来很僵硬、没有生命感,人类会有 " 恐怖谷 " 的感觉。我们要让机器人通过 AI" 自己学会 " 怎么做表情,做得自然、有生命感,这才是关键。
人类也是通过看镜子来学会做表情的。我们的第一套 AI 是让机器人学习 " 自己脸动起来是什么样 "。第二套 AI 是去看互联网视频,学 " 人类是怎么做表情的 "。两者结合,才能做出自然的表情。
此外,我们核心技术之一的CharacterMind 系统创新性地将情感 AI 与人脸机器人相结合,能够创造各种角色,这些角色可以理解用户情绪,尤其是在交互时识别用户情感。同时它会给机器人提供一些参数和指导,告诉机器人 AI 的作用就是理解人类情绪,并且塑造角色。
我觉得情感非常重要,人脸做多少种表情没什么意义。没人会因为自己能做多少表情而骄傲,这不是特别厉害的技能。
此外,人脸不像手或脚,它不会和物理世界发生复杂交互,不需要仿真系统。它可以靠互联网视频来学习。就像大模型那样,是数据效率非常高的一条路。
蓝鲸科技: 有美国有团队在做这块吗?
胡宇航:很少,主要是做数据传感器,人脸表情生成是非主流赛道。
蓝鲸科技:最早的投资人是谁?
胡宇航: 最早是在德迅投资,德迅也是宇树早期投资人,奇绩陆奇博士也很重视我们。
蓝鲸科技:你怎么看待新技术带来的这种 " 恐怖谷 " 效应?
胡宇航:如果人脸动起来够逼真,就可以避免带来这种效果。未来这可能成为评价标准,如果机器人动作不自然,眼睛不协调,会让人感觉恐怖。算法上还有很多突破要做。
蓝鲸科技:你对未来通用机器人的想象是怎样的?它能做什么?
胡宇航:这个问题挺有意思。昨天我们也讨论过。我不认为无所不能的机器人能实现。真正通用的机器人应该像人一样能处理问题,会拆解新任务,会举一反三,在稍加引导下完成任务。就像养孩子一样,有引导就能学。
我希望买一台新机器人,开始时对家里环境陌生,但我告诉它哪里能碰,哪里不能碰,怎么整理,它能自主完成任务。他的自主学习能力是关键。他不必无所不能,但要能通过简单地指引后学会。 机器人大脑学习速度比人快,稍加暗示就能学会,这是大家期望的机器人。
蓝鲸科技:您抖音粉丝超过百万,创业者少有这样投入做内容,能聊聊做抖音的初衷和感受吗?
胡宇航: 我觉得做自媒体是创业的一部分,需要宣传产品和理念,吸引追随者。就像雷军也用自媒体证明了这条路。
抖音对我在科研、创业的道路上,其实提供了一个 " 共创 " 的平台。以前做科研,很多内容只能在论文里呈现,和公众有天然隔阂。但在新媒体时代,短视频让我能把探索过程分享出来,得到真实的反馈,甚至灵感,还会让我意识到项目还缺了什么。
我一直把关注我的粉丝们叫 " 电子股东 " ——和我一起推动 AI 机器人走向世界的人。他们见证了机器人从一个粗糙的原型,慢慢拥有细腻的表情,开始理解情绪,变得越来越像 " 生命体 " 的过程。这种陪伴本身就有很大的价值。在短视频里,复杂的问题必须被讲得更清楚、更有温度,这逼着我们团队反复思考:如何用人话讲 AI?如何用故事讲科研?这个反过来帮助我们更好地理解技术的成果转化,也更好地和未来的用户沟通。
新媒体时代,其实是 " 共创科研 " 的时代。知识不应该只是象牙塔里的东西,产品也不应该只是封闭团队的成果。粉丝的参与、支持、建议,都是一股很真实的力量。他们不是看客,而是这个旅途中的同行者。
胡宇航论文资料:
《Teaching Robots to Build Simulations of Themselves》,Nature Machine Intelligence:提出了一种以自监督学习和自我建模为核心的方法体系:机器人可以仅通过观察自身的视频,重建自身结构与电机运动规律,实现从感知、理解到控制的自我闭环,为机器人实现适应能力与自主学习提供了技术路径;
《Human-Robot Facial Coexpression》,Science Robotics:提出面部共情表达预测模型,使机器人能够提前捕捉人类情绪信号,并同步生成自然、匹配的面部回应。这使得机器人不仅是观察者或响应者,更是一个主动交互的共情个体。