关于ZAKER Skills 合作
量子位 12小时前

一只机器狗,把英伟达的算力王座拱翻了

消费级机器人行业,可能要出现一次真正意义上的代际切换了。

过去几年,大家见过太多机器狗:能跑、能跳、能翻跟头。但问题一直没变。

它们很多时候其实看不清、听不清,也想不明白。

行业主流方案,还是 200 万像素摄像头、16 线激光雷达、单芯片算力架构。

机器人能动,但距离真正理解世界,始终差一口气。

直到刚才,我看到一组「离谱」数据——

6600 万像素、HDR140db、223.2 万点云 / 秒、70 亿参数端侧运行280TPS

更关键的是,它没有在英伟达的规则里卷。

而是用6 颗芯片组成异构计算集群,把消费级机器人的算力效率,直接拉到行业 10 倍以上

这组数据,来自蔚蓝科技刚刚发布的BabyAlpha A3 消费级四机器

这家已经卖出超 2.5 万台的消费级四足机器人、累计交互6548 万次、用户使用时长超 9.5 亿分钟的公司,终于把过去几年积累下来的核心技术,集中兑现到了 A3 身上。

信号已经很明确:消费级四足机器人,正在从会动,进入会理解人的新阶段。

那么,问题也来了。

当机器人的感知和算力都捅破行业天花板,具身智能,究竟会被推到什么位置?

机器人终于不再 " 半盲 "

过去几年,消费级机器人行业一直有个很隐蔽的问题。

大家都在卷运动能力。翻跟头、跑酷、越障、爬坡,动作越来越像科幻片。

但感知系统,其实一直停留在「能用」阶段。

逆光环境容易看不清,复杂空间容易误判,动态目标捕捉慢。

很多机器人表面上很聪明,本质上还是在模糊理解世界。

这也是为什么,行业里大量机器人看起来很灵活,但真正脱离遥控和预设环境后,依然像个「半盲选手」。

机器人如果连世界都看不清,就谈不上真正自主。

而 A3 最狠的地方,就是直接把感知维度拉高了一个时代。

先看视觉。

A3 搭载了超能视觉感知系统,由 5000 万像素主摄 +f/2.8 超广角 +4K 全景摄像头组成,分辨率分别为 8K、4K、4K,总像素达到 6600 万,还包括了 1/1.3 英寸大底。

什么概念?很多旗舰手机主摄,才 5000 万像素。

更关键的是感光能力达到HDR140db 视网膜级别

行业主流机器人,大多还停留在 HDR90db 以下,而人类眼睛理论动态范围,大约在 100db~120db 之间。

A3 第一次把机器人视觉动态范围,推到了超过人眼的水平。

这意味着,以前机器人在强逆光、暗光、复杂明暗切换环境里,经常会瞬间「失明」。

但现在,A3 真正具备了复杂光线下的环境理解能力。

还有一个特别容易被忽视的数据——最高帧率 480fps

行业主流很多还是 30fps,类似普通视频。

480fps,接近超慢动作视觉。

高速运动目标、儿童跑动、突然出现的障碍物,在机器人眼中都是慢动作回放,是可以逐帧分析的清晰画面。

这还不是最夸张的。

真正拉开代差的,是空间感知。

A3 用了5 组3D ToF+3D 结构光构成的360 ° 环视面阵,点云密度达到223.2 万点 / 秒

而行业大量 16 线激光雷达方案,点云密度只有 4.8 万点 / 秒。

「点云密度」可简单理解为:每秒钟机器人通过传感器采集到的三维空间点的数量。

高密度点云就像高清照片,能分辨出细小的障碍物(比如电线、玩具、小台阶)。而低密度点云就是一张马赛克图

4.8 万点 / 秒 VS 223.2 万点 / 秒,差距接近两个数量级。

如果说别人的机器人还在用 2G 地图导航,那么A3 已经切到了 4K 实时地图

它看到的,不再只是障碍物轮廓,而是一个高精度、实时变化的三维世界。

听觉系统也一样。业内很多机器人只是「听到声音」。

A3 全球首发 12-Mic 3D Mesh 仿生立体听觉,能「听懂声音从哪来」。

12 个麦克风组成三维声场阵列,可以判断方向、距离、空间位置。

谦虚点说,它更接近具身智能。但依我看,这就是具身智能啊!不仅理解语言,还能理解环境。

就像人类干活儿,要求「知行合一」,只有感知对了,才能更好地行动。具身智能的终极目标不就是如此么?

在这样的感知能力下,A3 也在挑战自己,目前它的最高速度能达到 3.5m/s,能够爬上 45 ° 角的坡,最大越障能到 28cm。

注意,这不是炫数字。机器对复杂环境的理解,已经产生质变了

同时,这也意味着具身智能从实验室逻辑,进入真实世界逻辑。

但看得见,只是第一步。

独创异构计算集群,绕开英伟达路线

感知到了,还得「想得动」。

过去 5 年,无论是英伟达亲儿子 OrinNX,还是国产性价比高手,大家本质上都是在单芯案卷。

究其原因,还是端侧算力跟不上,无奈只能被拉进英伟达的路线上硬扛。

事实上,这种路线有非常明显的物理上限。功耗、散热、成本、实时协同能力,都会越来越难。

于是行业出现一种很诡异的状态。

机器人越来越贵,但真正的智能提升却越来越慢。

这也是为什么很多机器人看起来越来越像「高配遥控车」。

能动,但不会思考。

A3 这次换个方向突围,不再继续堆参数,直接绕开英伟达路线

它做了一套自研的「具身智能边缘端混合异构计算集群」

简单理解,它更像一个「芯片智囊团」。不是让一颗芯片硬扛所有任务,而是6 颗芯片分工协作。

2 颗 5nm 芯片、2 颗 8nm 芯片、2 颗 3D 堆叠芯片,共计 22 核 CPU。

不同芯片负责不同任务。感知、决策、运动控制实时协同。

像公司里产品、技术、设计、运营同时开工,而不是一个人既写代码,又做 PPT,还得拉融资。

这背后其实是路线之争。跟着英伟达规则走,只能拾人牙慧,不如换条赛道,自己跑。

因为消费级机器人真正的问题,从来不是「能不能做出来」,而是「能不能让普通家庭买得起」。

这也是为什么,A3 最核心的一组数据,不是参数,而是效率。

15 亿参数模型下,617TPS;

30 亿参数模型下,427TPS;

70 亿参数模型下,280TPS。

行业什么水平?很多竞品 70 亿参数根本跑不起来。能跑的,最高也就 6TPS。

竞品思考句话的时间,A3 已经能完成段对话了。

更关键的是成本,国产方案 300 多美金,而英伟达 Jetson Thor T5000,约 3000 美金

蔚蓝打破了算力垄断,用更少的成本做出超越英伟达的效果,这能不服?

其实这件事真正有价值的地方在于,它第一次把「端侧真正跑通大模型」,拉进了消费级市场。

过去行业有一种很重的云端「依赖」,本质上还是芯片算力弱。

但机器人和 ChatBot不一样。它得实时感知、实时决策、实时运动。

云端延迟,很多时候意味着机器人直接撞墙。

而 A3 因为算力够强,能在「端侧跑通大模型」。而这,恰恰是Physical AI得以落地的核心基石。

能进入家庭的机器人,首先得足够安全

感知、算力、运动能力这些参数再强,也只是消费级机器人的入场券。

真正决定一台机器人能不能进入家庭的,其实是另一件更底层的事:安全

因为家庭环境和实验室完全不是一个世界。

实验室里没有突然蹿出来的猫,没有满地拖鞋和掉落的充电线,也没有刚学会走路的小孩。但真实家庭里,这些场景全都有

AI 生成

蔚蓝很早就把安全放在了极高优先级,所有原材料和零部件均来源于全球顶级供应商,很多设计思路都来自真实家庭里踩过的坑。

这次,A3 身上有一个明显特点:它的很多安全能力,不是后加的,而是一开始就嵌进了底层设计。

比如物理安全

行业很多机器人,关节、线束、运动结构都暴露在外。一旦儿童误触,很容易出现夹手、碰撞等问题。

而 A3 直接做了隐藏式关节、隐藏式线束、防夹手设计。甚至在故障状态下,还能实现毫秒级安全制动

这很像汽车行业从机械时代进入智能时代后的变化。

真正高级的安全,不是出了问题能救回来。而是尽可能不让问题发生。系统安全也一样。

很多人现在讨论机器人,都在关注安全边界

当机器人开始具备长期联网、自主行动、持续感知环境能力后,它本质上已经是一台会移动的智能终端,不能再按普通玩具思路设计了。

A3 这次直接上了端云双重安全架构

端侧有 360 安全大脑做恶意攻击、木马病毒、远程攻击的拦截。

云端则接入等保三级 + 阿里云安全体系 +Azure DDoS 防护。

本质上,它已经开始按「智能终端级别」做安全。

还有一个很关键的点:隐私

过去几年,很多用户对家庭机器人的最大顾虑,其实不是贵,而是不放心。

毕竟,家是每个人安全的港湾,是一个能让人彻底放松下来的地方。

可如果一个集移动摄像头、麦克风、传感器于一身的设备,长期待在家里,那算怎么回事儿?

所以蔚蓝这次强调了一件事:尽可能把算力和数据处理留在本地

包括本地可信计算架构、全链路通信加密、端侧数据存储与处理、安全启动链等等。

这不是简单说一句「我们不会泄露数据」,而是从架构层面,让很多数据压根不需要离开设备

这件事非常重要。

特别是对于消费级具身智能来说,想要大规模进入家庭,「安全」比「智能」重要多了。

万元级消费机器人背后

这也是消费级量产玩家非常少的原因。

To B、To G 业务还能靠关系、项目或定制化拿单,但 To C 行不通:消费级市场只关心一件事:用户到底愿不愿意掏钱。

蔚蓝不依赖 ToB、ToG 先跑规模,而是选了一条要求技术必须真正做到低成本、高可靠的难路。

公司从 2019 年成立的第一天起,定位瞄准的就是万元级消费产品,主打家庭场景和长期陪伴。

AI 生成

行业很多公司还在 Demo 阶段,蔚蓝的核心产品 BabyAlpha,已经累计卖出超过 2.5 万台,是全球销量最多的消费级四足机器人产品

蔚蓝内部有个很重要的逻辑。

四足机器人,是人形机器人真正成熟之前,必须经历的「启动阶段」。

先用消费级四足产品获取真实世界数据,再反哺具身智能大脑训练。

催熟脑智能后,建产业链规模压缩成本,解决形机器在消费场景下的成本 - 价值倒挂问题。

这件事非常关键。

当前,想让机器人从「演示 Demo」走向「实用落地」,许多玩家在训练产品时,依然苦于缺少高质量、规模化、有真实物理交互的数据。

很多公司还在靠合成数据训练,真实的家庭环境数据,几乎没法模拟。

殊不知,孩子突然扑过来、玩具散落一地、客厅灯光变化、多人同时说话……这些真实世界噪声,才是机器人真正的考场。

AI 生成

而蔚蓝的 2.5 万余台订单量、用户累计使用时长超 9.5 亿分钟;累计交互次数超 6500 万次所积累的数据,全部来自真实家庭环境,而非实验室生成。

为了获取这些可贵的数据,蔚蓝分了四步走:

机价格带的童陪伴产品完成规模出货,获取真实家庭场景数据

基于用户数据训练云端模型 + 密度 OTA,产品用户粘性不断提;

通过技术创新,压缩产品成本,为算让路,将云端模型下放端侧

最后,对用户进低利润产品升级和回收,形成持续的「数据→智能→产品」完整轮。

本质上,它已经不是单纯卖硬件了,而是持续训练具身智能

核心团队

最后,再聊聊团队。

创始人刘维超,是一位连续创业者,从中学时期就对智能体算法感兴趣。

2009~2011 年,他连续三年拿下RoboCup 人形机器人国际冠军

之后赴德国留学,在波恩大学攻读人工智能机器人专业

他师从德国波恩学计算机学院院 Prof.Sven Behnke、莱布尼茨奖获得者 Prof. Daniel Cremers,并与动驾驶之 Prof. Sebastian Thrun 系出同。

蔚蓝科技创始人刘维超

2012~2017 年,刘维超创立过 AUGTEX,还是 LoRa Alliance 创始董事成员、亚太区唯董事成员。

2018 年,他开始筹备蔚蓝科技。目前,整个技术团队有宾夕法尼亚大学 GRASP Lab、UIUC AI Lab、哈工大等全球顶级实验室背景。

相比科研背景,他们搭建产业的能力也很强。

这么说吧,前面咱们讲到的「感知、运动能力」是进入物理世界的身体,「算力」相当于底层引擎,「数据密度」是企业的护城河,「安全」是进入家庭场景的生死线。

那么「产业化」,就是具身智能公司把复杂技术带进消费级市场的最后一道门槛

在这方面,蔚蓝积累了多年经验。

2021 年,其第 2 代工程机 C200,打破了 MIT 四足机器人奔跑速度和旋转速度纪录

2022 年,公司建成国内首个四足机器人量产工厂

2023 年,蔚蓝推出全球首款家庭陪伴四足机器人 BabyAlpha。

到了 2024 年,全国首家消费级具身智能零售门店落地南京德基

很多公司还在讲未来,蔚蓝已经开始把机器人真正放进商场、放进家庭。

消费级具身智能真正难的,从来不是做出 Demo,而是持续量产、持续迭代、持续进入真实世界。

BabyAlpha A3 真正有意思的地方在于,它第一次把感知、算力、自主能力,拉进了同一个时代。

当机器人开始看得比人更清楚,想得比过去更快,一个新的问题就出现了:人造劳动力,离普通家庭还有多远?

或许,消费级具身智能真正的临界点,不是在实验室里。

而是在某一天,一个售价万元级的机器人,真正开始进入普通人的客厅。

据官方介绍,BabyAlpha A3 预计 Q3 正式上市。

真正的消费级具身智能,可能要从这一代开始了。

ps:BabyAlpha A3 首发权益礼盒已置顶评论区,需要的朋友自取~

pps:点击阅读原文,可了解更多产品信息~

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容