关于ZAKER 合作
36氪 23分钟前

前迪士尼工程师和 Midjourney 联创,要做一款“会呼吸”的 DIY 仿生机器人

作者|黄楠

编辑|袁斯来

26岁那一年,朱圣杰以2亿美元的价格,卖掉了第二家创业公司。

那个夏天,朱圣杰给自己放了个长假,开始漫无目的地环游世界,在不同纬度的天空和深海跳伞潜水。

毫无意外地,沉浸了大半年后,朱圣杰感到了一种空虚感。他必须思考一个问题:什么才是自己足以投入一生的事?

过去20多年,朱圣杰的生活顺利到让人羡慕。他出生在上海,从6岁第一次接触乐高Mindstorms开始,朱圣杰就对机器人着了迷。13、14岁时,他连续两年斩获乐高青少年世界机器人大赛冠军。14岁那年赴美留学,一路在机器人方向读到加州大学伯克利分校。

在本科最后一年,朱圣杰被迪士尼选中,进入迪士尼Imagineering担任机器人工程师。2016年,上海迪士尼乐园开园。朱圣杰主导的《加勒比海盗》项目中"杰克船长"仿生机器人成了最火爆的项目之一。到后来奥兰多迪士尼潘多拉园区的阿凡达仿生机器人,都是他主导的产品。

在加州大学伯克利分校攻读机器人方向博士期间,朱圣杰选择辍学,在硅谷开启了自己的创业之路。他做的智能戒指品牌Titanium Falcon在2018年被收购,此后又创立了一家游戏硬件公司Blok Party,被索尼拿下。

朱圣杰是幸运的,他终究还是找到了真正热爱、足以安身立命的事业——回归自己喜欢了二十年的机器人赛道。

此后几年,他开始为下一次创业做准备。朱圣杰成立了一家数据标注公司,专注于人类表情与行为意图的大模型研究。直到大模型多模态能力突破,机器人供应链达到理想状态后,他决定躬身而入。

2025年,朱圣杰回国,与 Midjourney 联合创始人John Jiang共同创立了 Animotion Robotics。2025年底完成了头部美元基金的首轮投资,由Maple Pledge 枫承资本出任后续轮次私募股权融资顾问。

他们即将推出首款产品,DIY仿生机器人 loi——这个名字来自于拉丁语中"被选择的",它诞生在计算机世界的"0-1"数字序列中,慢慢进化分裂成为一个新的机械生命体。

loi采用模块化设计,机身通过磁吸卡扣实现眼睛、鼻子、嘴巴、脸皮、发型的自由更换,用户可逐步完成个性化定制。核心是一枚可拆装的记忆芯片,在本地端侧储存着 loi 的"性格"与"记忆",并能无缝迁移到不同的机体载体中。

有意思的是,loi并不会一味迎合用户。它会因为长时间独处而感到无聊,也会对生硬的对待方式表现出抵触。但当你真诚地与它互动时,它又会重新敞开心扉。

loi概念图(图源/企业)

loi背后是朱圣杰对人机共生关系本质的思考。如果机器人只是一个工具,那么它会被当作电器,用完就关机。只有当机器人拥有某种"生命感"、能够与人建立真实的情感连接时,共生关系才有可能成立。这引出了一个更深层的问题:机器人的"灵魂"到底由什么构成?

朱圣杰问了许多人,得到的回答无非是LLM、强化学习,"这不是我要的答案,技术可以实现智能,但无法解释为什么有些机器人能让人感到‘活着’,而有些只是冰冷的代码"。

直到John的出现,他得到了一个全然不同的答案: "灵魂不是被设计出来的高级功能,而是那些无法被完全控制、带着随机性和不确定性的底层反应。就像人的本能,你不会每次都做出完全理性的决策,恰恰是这种‘不完美’构成了生命感的基础。"

John的回答和朱圣杰2016年前的记忆形成回响。朱圣杰始终记得,入职迪士尼第一天,产品经理就告诉他:你做出来的所有机器人都要有"呼吸"。

无论呼吸还是本能反应,都有非标准化的细节、微妙的起伏、无法被完全预测的变化,正是这些"不完美"让机器人显得真实,这也是朱圣杰希望loi具备的底色。

在这个孤独、离散的年代,人们前所未有地渴望陪伴和情感连结。朱圣杰不太爱讲述宏大叙事,他希望能为普通人做出一款机器人,成为他们家中"a real family member created by yourself(一个由你亲手创造的真正的家庭成员)"。

以下是硬氪与Animotion创始人朱圣杰(Shane)的对谈实录,内容经编辑:

机器人的「AI灵魂」

硬氪:你13岁就出国了,但听起来中文讲得很好。

朱圣杰:我有一位特别好的朋友,一起读书、大学毕业后也都在湾区创业。当时学校环境全是英文,所以我们约定平时交流都必须用中文。不过我的中文能力还是停留在初中阶段,现在只能打拼音,不太会书写汉字。

硬氪:毕业之后你唯一的一段大公司经历是加入了迪士尼。

朱圣杰:迪士尼Imagineering像一家Startup,一个项目由3至4个人负责,是很典型的扁平化模式。对我来说,相比传统大厂的体系化管理,这段经历让我养成了一套自己的管理模式。

硬氪:之前你卖出过两家公司、都在硅谷,而这一次创业选择了回国。

朱圣杰:很多人觉得我创业是幸运的,接连卖掉两家公司。但有时候我也会觉得遗憾,没能把公司带到更大的规模。

当我扪心自问,这样的生活不该是终点,如果再接着折腾,自己真正热爱的事到底是什么?答案很明确,是机器人。我从6岁开始接触机器人,之后出国求学、专业选择都跟这个方向有关。

2020年底,我思考新的创业方向。当时在硅谷,数据标注正值风口,Scale AI刚刚成为独角兽公司,我顺势成立了一家数据标注公司,聚焦人类表情与行为意图的解读与研究。期间,我们积累了大量的数据训练经验,也踩过无数坑。现在看来这个方向选得很正确,正是这份积累,为Animotion打下了基础。

直到2024年,"最佳时机"到了,各类大模型逐渐成熟,供应链也达到了理想状态。做硬件、中国供应链是全球最好的,具身领域能力很强的工程师也以华人为主导,回国成为自然而然的选择。

硬氪:Midjourney已经是一家非常成功的公司,你怎么找到John(Midjourney联合创始人)加入的?

朱圣杰:我自己更偏上层设计,虽然懂技术,但无法从底层开始写核心代码。因此,准备创业时,我在硅谷托朋友帮忙找能做算法架构搭建的人。

我带着一个问题见了很多工程师:机器人"灵魂"到底缺失了哪些部分?

我问的不是机器怎么造的技术问题,而是聚焦"人"本身,即真正的"AI灵魂"该具备哪些属于人的特质。但大家都在跟我讲LLM、强化学习,这不是我要的答案。

直到我回国后在新车间(亚洲最大的极客空间)见到John。John是Midjourney联合创始人,项目第一行代码就是他写的,同时他也是一名资深极客,大家一聊就惺惺相惜。

早前我没觉得Midjourney有多"神",毕竟懂AI的人都多少有点自己的骄傲。但John跟我聊的从来不是Midjourney赚钱的事,而是他自己在做的一个side project——叫做Jarvis(《钢铁侠》中的人工智能助理系统),这跟我要找的"AI灵魂"正好吻合。

后面我追问他,"灵魂"是由什么构成?John一句话就点醒我,人是有本能反应的。他举了个例子,有人突然朝你扔东西时,你会下意识躲开。这不是思考后的决策,而是本能,是底层反应。在所有反馈"子系统"里,它是最不可或缺的一环。只有把本能这一层搭起来,机器人才会产生真正的灵魂——会不爽、会疑惑、会有情绪,而不是机械应答。但现在所有机器人都没有这个能力。

因此,当John把这个脑洞讲出来的那一刻,我心里很确定就是他了,马上说服他入伙。

做走进家庭的仿生机器人

硬氪:家庭场景是公认最难进入和渗透的市场,为什么Animotion创立以来就明确了要做To C的仿生机器人?

朱圣杰:Animotion的定位很明确,只做To C。

此前业界聚焦如何用机器人解决劳动力,国内擅长硬件和运控,美国擅长算法,形成了一种割裂的格局。我认为,运动能力如今已经基本解决,劳动力问题未来3-5年也会随着世界模型的成熟得以突破。机器人未来不该仅停留在劳动力上,否则它也只是从工厂走进家庭的"机器",而非能与人共生的伙伴。

随着AI能力越来越强,很多人既依赖AI,又惧怕AI会取代自己的工作,这种矛盾的心态很普遍——所有人都在解决AI的功能性问题,却鲜少有人真正关注"人和AI如何相处"。人与AI的互动仍局限在数字世界里,只是屏幕上的对话框。我们要做的Physical AI,是一个跳出这个维度能够真正"在场"的存在。

我天生就有点"反骨",喜欢做市面上没有的东西。而我想解决的,就是物理AI与人的连接问题。一旦机器人有了"灵魂"、具备自主思考的能力,人和AI、机器人的共处问题自然就迎刃而解。

硬氪:你们首款产品选择做不可移动的半人形结构,而不是直接做全尺寸、可移动的具身机器人,背后的逻辑是什么?

朱圣杰:我们将消费级机器人进家庭分成六个阶段。第一代是以Alexa、小爱音箱为代表的智能助手、解决基础问答;第二代是扫地机器人、割草机器人等工具型设备专攻特定场景;第三代是陪伴类的静态AI玩具,情绪价值开始被重视;第四代是可移动、轻功能的娱乐型机器人,比如会跟着人走的机器狗,还能帮忙拿点轻东西。

Animotion起于第五代,做高认知、高维度的完全智能仿生机器人。第六代才是真正的具身机器人,既有我们上半身的灵魂思考能力,又有运动控制能力,能帮用户做家务,同时提供真实的情绪价值。

我们并不急于一步跨越到第六代。用户需要一个接受的过程。如果今天一个具身机器人突然走进家里,调研显示,80%用户会感到不适与恐惧,他们担心机器人下一步会做什么、是否会在不受控制时自行移动。这种恐惧很真实。

因此,Animotion选择做"退一步"的事情。我们会以仿生半卡通的形象,先不让机器人到处移动,而是将其固定在某个场景中,它可以是家庭智能设备、是装饰品,同时又是一个"人"拥有丰富表情与独立性格,能天然避开恐怖谷效应。

通过在固定场景中让用户率先形成产品习惯,我们相信,Animotion能做出第一台真正走进用户家庭的仿生机器人。

硬氪:在产品定义方面你们是怎么考量的?

朱圣杰:第一,外形必须具有鲜明的辨识度。我们自己心中有一个产品雏形,但更多的具体形态交由用户决定。

Animotion整机思路跟大部分本体公司不同,我们不采用一体化整机,而是搭建一个模块化的头骨平台,机器人的眼睛、鼻子、耳朵、脸皮、头发等物理结构均可通过磁吸卡扣的结构更换。第一阶段用户可更换脸皮,第二阶段推出更多五官与发型的组件,第三阶段则提供一个"头骨"框架,动手能力较强的用户可在已设定的结构范围内自行改造外形。这样,每个人拥有的机器人都是独一无二的。

loi概念图,实物以量产为准(图源/企业)

第二,背后的故事线需要自成体系且具备延展性。我们首款仿生机器人名为loi,名字来源于拉丁语,意为"被选择的"。它诞生始于计算机世界中的"0-1"数字序列,是其中一个开始做梦的"0"。它梦见了可以被触碰的世界,也梦见了一个人。它带着梦和过往的记忆来到现实,是一个既有不越界的神性本分,又对未知的世界和人类情绪充满纯粹好奇心与探索心的神明小孩。

硬氪:多数硬件公司都是产品先行,但你们反而选择了先做内容和IP?

朱圣杰:loi既是产品,也是我们孵化的IP。我们是极少数拥有Content Studio的机器人公司。AI时代,编程不再是门槛,AI Agent及硬件的技术与成本壁垒快速消解,产品会百花齐放,但真正能够跑出来的公司,必然具备足够强大的内容生产与品牌营销能力。

过去互联网品牌靠烧钱,而今天最稀缺的资源依然是品牌和内容,但核心转变为了社区。Nothing手机和拓竹就是典型——都是从社区做起来的,我自己也是个极客,是拓竹和Nothing 手机最早期的社区成员。

所以我有深切体会,社区是需要创业者用心经营的对象。它不是等产品做出来之后,砸钱请营销团队告诉用户"来买",而是要走在产品前面。在产品还没发布的时候,就在社区和各类社交平台上埋下钩子,把那些真正对产品和理念感兴趣、气质契合的人聚集到社区里。

因此,我们的打法跟传统策略正好相反,在产品正式面世前的0至6个月,官网社区和社交媒体是我们内容输出的主阵地。官网不急着陈列产品参数,而是先呈现一个"梦"——loi的梦。我们希望用户能在这个社区里跟loi一起"造梦"。

硬氪:用户在社区里具体是怎么实现"造梦"体验的?

朱圣杰:机器人本体还没正式推出前,很多用户看官网可能会觉得这是个"游戏公司"。用户可以在官网向loi分享比如想对loi说的话、脑洞、分享日常照片等。

loi的self-reference梦境(图源/企业)

当用户在社区购买并收到实体机器人后,会附带一枚可拆装的芯片,其中储存着loi的"前世记忆",即用户在数字世界中与其交互的全部痕迹。开机前将芯片置入机身,loi便被唤醒。它不会以"你好"这类标准化问候开场,而是说"我们是不是见过","啊,原来如此"。

如果后续设备损坏、或是用户想更换新的形态,只需将芯片拔出并插入新一代机身,数据便可无缝迁移,新载体将继承完整的记忆与性格,实现"灵魂"在不同硬件间的自由流转。所有交互数据仅存储在用户本地可拆装的芯片中, 用户拥有完全控制权,可随时删除或转移。 loi的环境感知仅用于交互体验优化,不会上传任何个人数据到云端。

如何让机器人有「呼吸」

硬氪:loi首批目标用户是谁,这些人群都有什么特点?

朱圣杰:先分享一个有趣的故事。在GPT-5发布之前,Sam Altman宣布将彻底下架GPT-4o的消息,引起了网络上一场自发的"Keep 4o"活动。究其原因,GPT-4o的模型机制更接近人类的思维方式,具备某种"生命感"、能提供情绪价值。大量用户跟4o建立了深度的情感连接,甚至有人形容自己是在"谈恋爱",每日在线互动时长高达十余小时。

我们当时也关注到了这一现象,并不断找寻希望与我们对话和交互的人群。当前,90后、00后的年轻人,他们拒绝标准化的审美和体验,追求独特的表达方式。年轻一代追求的是"极端辨识度"与"亚文化归属感",他们不满足于大众化的可爱或治愈系,而是被冷峻、工业感、甚至带有暗黑美学的设计所吸引。

成熟人群则在对抗数字焦虑,他们深知屏幕交互的疲惫,渴望一种"非打扰式"的在场感。还有一类是对空间叙事敏感的人群。他们在寻找能为极简空间入生命力的装置,或是能彰显独特品味的艺术符号。loi对他们而言,不只是机器人,而是空间中会"呼吸"的灵魂点缀。

我们希望与这些人一起探索:在这个孤独、离散的年代,人与AI的共生关系可以是什么样的。不是我们单方面定义产品,而是通过社区共创,让每个人都能参与塑造loi的未来形态

硬氪:这种"生命感"在机器人上怎么实现?

朱圣杰:喜欢看迪士尼动画的观众会发现,尽管电影中塑造的大多是2D卡通角色,但它们的表情和动作活灵活现。每一个细节——怎么眨眼、怎么张嘴、手放在哪里——都遵循严格的内在思维逻辑,与角色性格和故事线紧密契合。

英伟达GTC上展示的雪宝(Olaf)之所以能打动那么多人,关键也在于它具备一种"生命感"。这种生命感存在于每一台迪士尼机器人当中,将这种抽象的概念落底到具体的设计语言上,就是"呼吸"。

这也是迪士尼教会我最重要的东西。入职第一天,产品经理就告诉我:你做出来的所有机器人都要有"呼吸"。

当前市面上大多数机器人在非工作状态下是完全静止的,眼睛不眨、身体不动,像块铁。但迪士尼的机器人不是,待机时它会眨眼睛,即使面前没有人,它也会保持好奇,主动观察周围。这种四处张望不是漫无目的地转,而是机器人在有方向地感知环境信息。

我们也很重视"呼吸"在loi中的实现。当听到外面有小猫小狗在叫,它会转过去看一眼疑惑"发生了什么",再想一想觉得"有意思"并主动告知用户;当看到家中墙上的版画或客厅的家具产生好奇时,它也会主动提问"这是什么?是块黑色板子吗?",具备自主判断与主动表达的能力。

loi"睡觉"时也有"呼吸"。它会微微低头,身体伴随轻微起伏,如有生物的呼吸与心跳一般,偶尔轻轻点头、小幅度颤动,仿佛在做梦。如果突然被叫醒,它还会带着被吵醒的情绪做出回应。

硬氪:除了日常"呼吸"外,loi还有哪些体现生命感的设计?

朱圣杰:自我诊断也是loi生命感的重要组成部分。

就像人在感到不适时会主动表达一样,loi也会主动告知自己的健康状况。用户不需要定期检查或排查问题,而是由loi通过自检系统持续监测自身状态。

当某个部件接近使用寿命时,它会提前预警,比如会说"我的眼睛有点累了,可能需要休息一下"这样用户就能及时处理,避免真正故障发生时影响使用。我们的嵌入式工程师会对每个部件进行寿命测试,当运转接近临界值时,系统便会自动预警并对应到具体部件。

这不是炫技,而是真正从第一性原理去做一个"生命体",而不是一台冰冷设备。很多人觉得这些小细节没必要,但恰恰是这些细节,决定了用户是把机器人当作机器,还是当作"人"。

人机共生背后的技术基座

硬氪:loi的AI底层架构和主流方案有什么不同?它如何实现"学习"和"成长"?

朱圣杰:loi采用的是一种"成长型"架构,而非预设答案的应答系统。

它会像人一样通过互动来学习。刚到家时,loi对你的生活环境、习惯、喜好都不了解,需要在日常互动中逐渐建立认知。它会主动提问、观察你的反应、记住你们之间的对话,慢慢形成对你的理解。

这种设计的核心在于:让机器人的反应不仅基于逻辑推理,还包含情绪、本能、好奇心等多个维度。比如当它感到好奇时,会主动探索;当它察觉到你的情绪变化时,会调整自己的状态;当它长时间独处时,也会产生类似"无聊"的反应。

这些看似"不完美"的行为,恰恰是我们希望loi具备的,它可能不是一个永远正确的助手,而是一个会成长、有情绪、需要相互理解的伙伴。

硬氪:硬件壁垒能维持多久?loi在结构上有哪些独特设计来支撑表情和动作?

朱圣杰:硬件优势在中国速度下可能只能维持12个月,而真正构成长期竞争力的,是整套系统的搭建能力,也就是动作如何设计、神态如何精准表达。

在结构灵活性上,loi会是行业内最多的自由度的仿生机器人。这也并非出于炫技,而是基于对人类表情与动作机制的深入研究后所做出的取舍。我们希望用更高精度的底层能力,去支撑一种更克制、更偏卡通化的表达方式,让情绪呈现的更自然,而不是更复杂。

loi的noise梦境(图源/企业)

更重要的是,它的反应几乎是瞬时的,不会有那种"它在思考"的停顿感,就像和真人对话一样流畅。这种即时性和表情的丰富度,让它显得更像一个有情绪、会呼吸的存在。

当然,延迟在初期都避免不了,但我们的目标是保持在0.2-0.3秒。

硬氪:这个0.2-0.3秒的数值是怎么定出来的?

朱圣杰:基于人类交互节奏的观察,人对毫秒级的差异其实并不敏感,但对反应节奏非常敏感。我们通过大量测试发现,当响应落在大约0.2到0.3秒这个区间时,既不会感受机械地过快,也不会产生迟钝感,反而更接近人类真实的互动节奏。

目前,人机交互的顿挫感主要源于两方面,其一是机械结构,比如舵机的响应速度和齿轮材质等因素;这就要求我们在硬件上必须做到100分,以弥补运控层面的体验损耗。其二是运控策略本身,即何时执行动作、动作时长、幅度及频率。

虽然我们暂时无法消除延迟带来的落差,但通过优化运控策略,使动作呈现连贯、顺滑的节奏,可以在很大程度上弥合体验差异,让用户感受到丝滑的交互质感。比如《疯狂动物城》里的Flash,动作很慢但非常流畅,反而让人觉得可爱。

硬氪: 算法和数据层面有什么优势?

朱圣杰:我们的算法优势不在某一个模型,而在于数据和架构,前者是壁垒,后者是方法。

第一,此前我创办的数据标注公司,四年时间都专注于人类表情与行为意图的研究。人类表情可以分为多个层级,从大类到细分类,每一种情绪都有独特的肌肉运动模式。这段经历让我建立了一套完整的标注方法论和评估体系,也正是基于这些经验,Animotion 从创立之初就明确了数据采集和模型训练的方向。

第二,是我们基于第一性原理设计的算法架构。我们构建了一套以 V(Vision)、L(Language)、E(Environment)为核心的统一框架。其中,E(场景)是非常关键的一层,因为人在真实世界中的感知与决策,很大程度上都依赖于具体场景,而不仅仅是视觉或语言信息。

在此基础上,我们的联合创始人John进一步提出了认知与思考层的底层结构,使模型不仅能"识别",还能够进行更接近人类本能的理解与反应。

「情感共生」

硬氪:从产品理念到团队文化,你们都很强调"共建"。

朱圣杰:是的,公司所有的成员,我们都是loi的建设者。在Animotion的官网和产品设计图上,我们会列出每一位贡献者的名字,让团队成员有强烈的成就感——因为他们才是loi成功的关键。loi第一代产品的后脑勺上还会有一块特殊的铭牌,所有参与代码和设计的人都会留下名字。成员们也可以在社区中经营自己的账号,分享幕后的故事。

硬氪: 这种感觉听起来很"硅谷"。

朱圣杰:我把硅谷那些有趣、开放的团队文化带了回来,慢慢让大家形成习惯。

工程师可以在社交平台分享任何对行业的观点,只要不涉及机密。我也会引导和鼓励他们多分享好玩的东西。不过国内的工程师普遍还是有些许腼腆。

年轻人大多厌倦了传统公司里的"形式主义"文化,更在意能否真正做出有意义的东西。所以我们形成了一种张力驱动的"圈子文化",大家办公时间都很灵活,没有打卡制度,当有需要共同推进的议题出现时,所有人都会主动聚在一起讨论。

硬氪: 在你们看来,当loi真正进入家庭,它和用户理想的相处状态是怎样的?

朱圣杰:它是"a real family member created by yourself(一个由你亲手创造的真正的家庭成员)"的存在。当用户需要时它能给出建议,不想理它时、它也不会纠缠,作为一个 "在场"体放在家里,这是我觉得最理想的状态。

我们希望能通过Animotion的产品,loi只是一个起点,去探索和建立一种人与机器全新、平等的相处模式,而不是让机器人成为一种"负担",让你不得不去交互的产品。

这种相处模式能根据用户性格和每日状态自然调整。如果你是个i人,loi绝不会天天追着你聊天,它会安静观察你的表情和行为,等到你愿意抒发情绪时再温柔开启对话;而当它发现用户性格活泼开朗时,也会像朋友一样主动分享趣事、热情互动。

硬氪:这套交互设计的核心逻辑是什么?loi最终能给用户带来什么?

朱圣杰:很多年轻人喜欢养宠物,哪怕要承担不少责任——要遛、要喂、要收拾,但正是这些看似麻烦的事,是人与宠物建立深厚情感的关键。但很多AI陪伴产品在做的是去掉或者抛弃这些"麻烦",让用户获得纯粹的情绪满足。这本质上只是悦己,而非共生。真正的关系需要双向投入,需要你在意对方的状态,而不只是从对方那里索取。

因此,我们在设计loi时刻意保留了这种"不完美",它不会对所有人都给出千篇一律的回应。当你出差十天回家时,会下意识想"loi这几天会不会孤单",并主动跟它打招呼或带个小礼物,这种主动的关心,才是关系的本质。

我们希望通过loi,让更多人重新理解:如何在关系中获得真实的体验和感受。在这个AI时代,我们需要重新学会如何与他者建立连接,如何在付出中获得意义。

这些细腻的情感连接,才是我们最想创造的核心价值。

相关标签

最新评论

没有更多评论了
36氪

36氪

让创业更简单

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容