关于ZAKER 合作

星动纪元创始人陈建宇:加速奔跑,迈入具身智能“星”纪元

本文作者:房家瑶

来源:硬 AI

6 月 6 日下午,星动纪元创始人兼 CEO 陈建宇出席北京智源大会,并发表题为《加速奔跑,迈入具身智能 " 星 " 纪元》的演讲。

北京智源大会是国际人工智能领域的顶级盛会,自 2019 年 10 月首次举办以来,已连续成功举办六届。作为集国际性、权威性、专业性与前瞻性于一体的 "AI 内行大会 ",智源大会已成为全球人工智能从业者每年必赴的重要平台。大会累计吸引了 12 位图灵奖得主、1000 余位产学研专家参与,嘉宾覆盖 30 多个国家和地区。

以下为陈建宇演讲核心要点:

1、星动纪元愿景是构建通用机器人的新纪元,让其真正走进千家万户、赋能千行百业。

2、未来将是机器人的时代。我们未来看到数十亿台机器人被部署到现实世界中,成为继智能手机、电脑、智能汽车之后的又一代智能终端。

3、现实中机器人部署量仍很少,核心痛点有两个,一是缺乏通用智能,二是缺乏通用本体。只有突破这两大瓶颈,机器人才能真正大规模落地。

4、我们认为人形机器人是最理想的形态,也是最终实现通用智能最有效的载体。原因很简单:数据。具身智能依赖的是来自物理世界的真实交互数据,而这类数据的获取难度远高于图像和文本。

5、人形机器人由于与人类结构相似,能够高效复用人类行为数据。相比之下,非人形形态由于结构差异大,难以复用人类数据,导致数据获取的成本和门槛显著提高。

6、如果类比自动驾驶的五个等级,我们当前的模型大致处于 Level 2 到 Level 3 之间。也就是说,已经能在特定场景中完成一些任务,正逐步向更通用、多场景、多任务的能力泛化方向发展。

7、生成式模型能生成细致的物理交互过程和机器人操作移动的视频,视觉效果惊艳,而传统 VLM 仅具备感知和理解能力,缺乏 " 物理动作生成 " 能力。具身智能的核心在于让机器人在真实物理世界中深入交互,不仅要求 " 看得懂 ",更要 " 做得到 "。因此,生成式路径更适合具身智能发展。

8、使用生成式模型的核心优势之一是降低对真实机器人数据的依赖。传统方法需在真实环境部署大量机器人采集高成本数据,而我们可利用海量二维视频数据预训练,少量高质量机器人遥操作数据微调,模型仍能取得优秀控制效果。

9、我们选择 " 准直驱 " 技术路线,具有高动态抗冲击能力和成本控制优势,尤其适合人形机器人腿部设计。我们是国内最早将该技术从四足拓展到双足人形机器人的团队之一,已完成多代产品迭代。目前,我们的运动性能行业领先:腿部关节最大扭矩 400Nm,最大关节转速 25 弧度 / 秒,奔跑速度达 3.6 米 / 秒,是国内最强动态运动性能的全尺寸人形机器人。

9、2023 年,我们率先研究并复现了谷歌 RT 系列项目。发现其局限在于缺少对机器人 " 动作层 " 的具体建模与处理,于是提出 HiRT 范式,并于去年中期发布。

10、灵巧手方面,我们实现了行业首创的 " 全直驱灵巧手 ",能单手提起 24 公斤哑铃,点击鼠标每秒可达 10 次,达到专业电竞选手水平。

11、我们的发展历程分为三个阶段,跨越两道鸿沟。目前处于第一阶段(2A,科研),包括我们在内的企业已向高校与研究机构销售数百台灵巧手与人形机器人产品。跨越第一道鸿沟后进入 To B 阶段,机器人将在工业、商业等多领域广泛应用,释放生产力。跨越第二道鸿沟进入 To C 阶段,通用机器人将成为大众消费品,走进千家万户,应用量有望达亿级规模。

以下是陈建宇演讲全文:

我们这边主要聚焦大模型的一个重要拓展方向:具身智能与具身机器人。星动纪元的愿景是真正构建出 " 通用机器人 " 的新纪元,最终让其赋能千行百业,走进千家万户。

我们知道的话,那么像马斯克或者等等都已经说过,那么未来一定是机器人的世界。那么我们将拥有数十亿的机器人部署在未来,那么它可能成为继智能手机、电脑还有智能汽车之后的又一个智能的终端。

但是我们当前机器人能看到我们的机器人的部署的量还是非常非常少的,那么之所以是这样,是因为之前的机器人,一它缺乏通用的一个智能,二它缺乏通用的一个本体。如果我们能够破这个局,创造通用机器人的新纪元,才能真正地帮助我们赋能千行百业和走进千家万户。

那么我们的通用机器人也就由刚才说的两大部分组成,一个是通用的智能,一个是通用的本体。那么通用的机器人的具身智能,它也应该跟我们当前看到的语言大模型或者是视觉语言大模型一样,我们认为它也是实现具身智能涌现的唯一的一个我们目前看到的途径。

总之来说,我们有这样简洁的、通用的,没有人类先验的算法,加上大规模的数据训练算力来以其他达到智能的涌现。

但是具身智能还不仅仅是如此,因为我们需要突破从虚拟的这个图像和文本的世界,把它延展到真正到物理的世界,所以我们要求这个模型它能够具备更深的对物理层面的理解,并且能够搭载在能够跟物理世界进行主动交互的这样的具身机器人上面,还能协同地去工作,这个是我们需要解决具身智能的很重要的难题。

那么说到具身智能,我们一定需要一个很合适的本体,那么我们认为人形机器人是具身智能最终的一个终极的形态,也是最有效的这么一个形态。为什么呢?我认为最重要的一个原因是因为数据,因为数据是所有模型的燃料。那么具身智能它因为是需要物理世界的数据,所以说它获取的门槛和难度是比我们图像和文本还要更高的。

那么如果是我们是人形的机器人的话,我们将能够更加直接地从人类的行为数据里面来去获取相应的机器人的数据。不管我们是通过人类也要操作的方式去获取,还是我们直接通过人类演示的直接的第一人称视角,或者第一人称第三人称视角的视频数据来去获取,都这样要好很多。那么如果是其他的非人形或者非类人形的这样的一个形态,我们数据获取的成本和门槛就会高很多。

另外一个就是我们的人形机器人,它是一个通用的一个存在。那么它的双足大大的提升了我们的移动的能力,它的双手大大的提升了我们的操作的能力,所以说这样的一个硬件形态大大的提升了机器人它整个的能力的边界。

那么有这样的一个比较强的人形机器人本体的话,理论上它能做很多很多的事情,但是它整个的一个我们的这个产品的出货量、成熟度,还有它的能力还会随着我们智能的提升来去不断地提升,就像是这个我们的正驾驶特斯拉,最开始它已经预埋了能够支持全自动驾驶的这样的一个硬件本体,它的智能车。但是它的这个智能是随着它的自动驾驶的模型的成熟度来逐步去提升的。

我认为现在我们的模型的成熟度大概如果说类比自动驾驶的这个 level one to level five 这样的一个等级的话,大概是在 level two to level three 的一个过程,就是我们已经能够在一些场景下面,然后执行一些任务,然后并且在迈向更加通用、多场景多任务的泛化这个路途中去进展。

那么刚才提到我们的具身智能,它一定是智能线和本体线两条线同步去发展的,那么这张图总结了这两条线历史严格的这个发展。

那么我们的智能线是从最早的传统的控制机械臂的,然后再到我们的深度学习,然后再到我们的强化学习,再到大语言模型,再到现在大家比较火热的 VLA 的模型,这是一款具身的大模型。

那么我们的本体线是从最早的固定式的工业的机械臂,然后到我们有自主的轮式移动的机器人和智能车,还有到我们的四足的机器人,以及比如说轮式和这个机械臂的一个结合,再到我们现在更加通用的人形的机器人。

那么当然现在 VLA 模型和人形机器人我们倒不仅仅需要这么一个,我们需要把前面历史严格很多很有利的模型和工具技术,然后都融合起来,然后一起形成这样的一个软硬件结合的飞轮协同地去发展。

这张图是展示 VLA 模型它的架构的一个发展,那么我们认 VLA 其实是一个非常新的这么一个领域,基本上是从语言模型出来之后,我们才开始有这样的一个领域开始去发展。

最早大家会想着怎么样直接地把语言模型直接用到我们的具身智能里面,这个时候它两个模型还是完全分开的,语言模型是语言模型,然后具身的模型或者控制方法是具身的这样的一个模型和方法,然后它中间直接通过显示的语言做信息的一个传递,完全分层的一个架构。

但是这样我们的语言模型和这个模型本身并不具备对物理世界的处理的能力。后来人们就开始尝试说,OK,让我们的这个语言的模型语言视觉模型直接去输出我们机器人的动作指令,把机器人非常重要的 action 的这一个层面也给融入进来。

这个是业内非常有名的谷歌的 RT 系列的工作,那么我们也是在很早的时候,2023 年的时候就开始去研究这一块的一个工作,并且复现了。然后我们也发现了这一块工作的一些问题,就是它还缺少了针对机器人来说非常重要的 action 这一个层面的具体的一个处理,所以我们提出来了一个叫 HiRT 的这么一个范式,在去年中间的时候进行了发布。

这个是一个 VLA 的一个模型,它既有语言和视觉模型,然后底座是一个 VLM,但是外层我们套了一个 for 机器人的 action 的这么一个部分。那么后面我们可以看到包括著名的 physical intelligence 的 Pi0,还有 Figure 的 Helix,还有 Gemini Robotics,英伟达的 GROOT N1 等等都陆续地发布了他们的模型,他们模型也都是类似的这样的一个架构。

那么接下来我们又进行了新一步的一个探索,那么这个跟生成式的 AI 非常相关。那么刚才我们看到这一套的范式都是基于 VLM 的这一套的一个模型延展到具身智能这一块,那么生成式的模型此前一直还没有人探索,但是我认为它对具身智能来说非常重要。

就像刚才我们看到的非常酷炫的视频,里面能生成非常细致的物理世界的交互,甚至你也能生成机器人怎么去做物理世界的操作、移动等等。

而单纯的一个 VLM 是不具备这样的一个能力的,所以我们认为这一条线其实可能更有利于具身智能的一个发展,我们具身智能,我们的机器人就需要在详细的物理世界里面,然后进行真真正正的交互,但是我们需要对它进行延展,因为像纯粹的一个视频生成模型,它只能生成一个视频,但是我们需要这个模型还能够真正地去驱动我们物理世界真正存在的机器人在物理世界里面去交互。

所以我们提出来了一系列的工作,包括 VPP,包括 PAD,然后它是不光是能够生成机器人它未来的工作的视频的图像,它还能够生成准确的执行的动作,并且它是一个端到端的一个模型,直接控制我们机器人的底层的这个控制指令。

那么另外一个好处,使用这一套的好处就是大大地去缩减了我们对数据的利用量,比如说刚才所提到的这样的生成式的视频模型,它其实能够在海量的二维的视频数据上面直接进行相应的一个预训练,那么我们在这一部分就不再需要说我们通过遥操作在真实的物理世界部署这么多的机器人,然后花很长的时间来去收集。

那么这个是我们大概展示的是这个数据的一个梯度,那么我们看到绝大部分的数据实际上都是直接用这样的二维视频数据来去做预训练。而我们真实的机器人的数据只需要提供少量的这样的遥操作的数据,比较高精度的数据来进行微调,我们就能够达到很好的一个效果。

那么这个视频展示了我们通过这样的一个方法来实现的效果,那么我们是直接用这样一个端到端的具身大模型去驱动我们的五指灵巧手去完成各种各样的任务和动作,那么这些任务还包含了各种各样的工具使用,那么这个也是体现通用性的一部分,因为人类完成各种任务,其实大部分时候它不是通过直接通过双手,而是通过使用各类的工具来去完成不同的任务。

那么这里面我们的模型它的输入就是纯粹的这个视觉的输入,然后端到端的输出,我们的五指灵巧手,每一个手指头关节电机它该怎么去动?它的动的角度的指令是多少?然后它可以 take 我们的对任务描述的一句话的一个指令就能够生成相应的动作。

并且它能够执行一系列的连贯的任务,比如说让你把杯子扶起来,然后再把水给倒进去,它能够先去执行这样一个动作,完成之后自动地去执行下一个任务。那么中间我们也没有通过分层的方式去处理,整个是一个端到端的连贯地去完成。

那么这样的模型也具备比较好的跨本体迁移的能力。我们在打通了刚才的我们的单臂和灵巧手的这么一个系统之后,很快的基于同一个模型的框架快速地通过这个数据的微调,就迁移到了我们的完整的全身的这个双臂零操作人形机器人上边。那么整个这个机器人是全身上下一共有 55 个自由度,我们都可以通过我们的模型端到端地去完成相应的指令。

包括一些比较复杂的任务,比如说拿起这个勺子,然后去舀一个汤,然后并且把它舀到那个指定的这个碗中,那么这里面涉及到全身上下协调的移动工具的使用,还有包括这种复杂的流体的物体的使用,那么它也可以做这样一个比较长时序的一个规划,那比如说它整理桌面,它能够去规划我到底是用按照什么样的一个顺序,用左手还是右手啊?包括他也能自主地做双臂的协同啊。

刚才看到如果说这个筐比较远,他会自主地把它给挪过来。包括比较远的物体,它会协同整个全身,包括弯腰、弯手,然后去够到比较远的物体。

刚才我们看到我们的模型搭载到这样的一个智能的人形机器人本体上面,那么本体的构建也是非常有挑战性,那么以我们的双足机器人为例,那么其实是有多年的一个这个技术的一个探索的历程。

前面从以波士顿动力为代表的液压驱动,从苏黎世理工为代表的 SEA,然后再到 MIT 为代表的准直驱路线,那么此前在比如说四足机器人或者等等上面都取得了一定的一个进展。

我们是从 day one 就采取了一种新型的叫准直驱的这么一种路线。那么这种路线具备的非常好的好处就是能够具备很高的一个动态抗冲击能力,然后并且也有利于降成本,这个是非常有利于人形机器人腿部的这么一个设计的。

我们也是国内最早一批将该技术能够真正地拓展使用,在从四足迁移到双足人形机器人的公司之一,然后并且我们的机器人经过了多代的一个迭代。那么现在我们的这个整个的运动性能是在维持全尺寸人形机器人性能的基本上最高的一个记录,我们的腿部的关节的最大扭矩可以达到 400NM。然后关节最大的转速可以达到 25 弧度每秒,那我们去年也是打破了机器人跑步的最高的速度达到 3.6 米每秒。

刚才也提到全尺寸人形整机是行业的一个终局,那么也少不了核心零部件的这么一个这个自研,因为人形机器人它的双腿,它的双手都是非常新的,并且相比于此前的 AGV 小车或者是这个工业的机械臂,然后都有更新的,这样更有挑战的要求和需求啊。所以为了满足这样的一些需求,我们是自研了整个的集成的核心零部件啊。

那么首先是部件层,包括我们腿部、手臂和手的关节模组,然后再到零件层,到无框力矩电机,高性能空心杯电机和驱动器、减速器等等,我们都是进行了特质化的自研和优化,来满足我们对人形机器人特殊的需求。

那么在配合我们的这个人形机器人以及连接我们本体到刚才的具身大模型中间很重要的一个就是运动的控制,也就是我们的小脑的这么一个层面啊。那么这块也是我们取得的一些成果,那么包括全地形的复杂的地形泛化。

我们在 2023 年底的时候就能做到人形机器人可以在这个雪地或者是楼梯等等非常复杂的地形用移动网络端到端地进行稳定地控制行走,那么去年我们也是成功地登上了长城,并且在去年底的时候,我们是让我们的最新一款的机器人去重走丝绸之路,能够在山地、草地、戈壁、滩上等等复杂的地形上面进行快速地腾空地奔跑。

那么在灵巧手的这一块,我们是做出了行业首创的直驱的灵巧手。什么意思呢?我们把所有的传动的机构,包括这个腱绳的传动,包括连杆的传动都给去掉了,因为去掉之后我们能够去掉这些传动机构带来的包括精度、刚度等等所有的问题,最终使得我们的机器人在各个方面,包括力量、速度、精度等等方面都具备较强的优势。

这个视频展示是它的性能,这个是元素的播放,我们的手能够点击这样的鼠标,可以一秒钟点击 10 次,达到专业电竞选手的水准,那么单手可以拎起 24 千克的哑铃。

基本上能达到人类的一个力量,并且能够具备高精度的力控的性能,拿捏豆腐都是可以的。我们看到我们的阻力非常的低,然后并且可以进行非常好的一个反驱,这带来的好处是说它的抗冲击的能力会非常的强。所以它的稳定性是会比其他的方案都要好很多的。

并且我们达到非常好的一个精度,那么我们可以看到每个手指都能进行非常精准的一个对指,以及非常低延时的一个遥操控制,我们甚至能够把卡片这样轻薄的物体在五个手指头之间来回地去瞬时切换。

然后整个灵巧手也是人手的大小。那么具身智能因为它是基于这模型能力,是基于之前的语言模型或者是生成式视频的模型去构建。那么刚才我们展示了我们目前获取的非常好的一些这个效果,那么我们也当然整个的产业应用还在应用的一个早期,但是我相信非常快我们就可以进入应用的一个爆发期。

这是著名的创新者的鸿沟的这么一个图,我们可能要跨过两道鸿沟,那么整个分成三个阶段啊。第一个阶段是属于创新者的阶段,那么我们我把它称为 2A,是 academia。那么这个阶段其实已经在开始了,包括我们在内,我们的产品,我们的灵巧手和我们的机器人产品也已经销往了国内外各大高校和各大企业研究院所,并且已经有数百台的这么一个销量。

因为整个行业都是非常重视这块的一个商业应用的前景,大家都在一起合作共赢,然后争取去突破第一道的鸿沟。当我们突破第一道鸿沟之后,就能够真正地进入 ToB 的各种行业,包括工业和包括商业,做到真正我们的解放生产力。

接下来第二道鸿沟跨了之后,就是真正的进入我们的大众的 to C 阶段,我们消家庭的消费品的这么一个阶段,那么到这个阶段它的应用量可能就是数以亿计的这么一个应用量的终局了。

好了,我的报告就到这里,谢谢大家。

相关标签

最新评论

没有更多评论了
全天候科技

全天候科技

提供专业快速完整的科技商业资讯

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容