文 |硅谷101
大家觉得让机器人学会走路难,还是让它学会打开一听可乐难?我猜大部分人都会说走路难吧,毕竟人类花了几百万年才学会直立行走,波士顿动力的机器人摔了无数次才学会后空翻。
但我最近在采访的时候,才发现一个完全颠覆我认知的事实:在机器人世界里,开可乐这件事比走路可难太多了!也就是说,控制灵巧手要比控制躯体难上至少十倍,而从目前的售价对比上我们也能感受到:
波士顿动力Atlas机器人(会后空翻):预估14万美元;
英国Shadow Robot的灵巧手(会拧瓶盖):价格未公开,但业内估计超过10万美元
也就是说:一只手的价格接近一个完整的顶级机器人!这是什么概念?这好比一个方向盘的价格接近整辆特斯拉。所以机器人的灵巧手为什么难做?目前技术发展到什么阶段了?业内的技术派系有哪些、有什么值得关注的公司?
今天我们就来聊聊,这个让全世界顶级机器人工程师都头疼的终极难题——机器人灵巧手。以及我们与特斯拉前灵巧手负责人创业的团队TetherIA一起聊聊,一个300多美元的"Android版机器人灵巧手"如何试图颠覆这个被垄断了30年的高端市场。
01 机器人的"最后一公里"
为什么我们能看到机器人在工厂里分拣产品,在仓库里搬运货物,但却很少看到它们能像人一样灵活地拧开可乐瓶盖,或者精准地拿起一颗螺丝钉?答案就在于:手的复杂性远超我们的想象。
TetherIA联合创始人兼CTO
大家看一下人手的构造,就会发现其实人手非常灵活,里面关节非常多。我们以大拇指举例:大拇指从上往下,有IP joint(拇指指间关节)、MCP joint(拇指掌指关节),这两个关节都可以实现屈伸和弯曲。再往下的关节叫CMC joint(拇指腕掌关节),这个关节就明显灵活很多,可以做侧摆动作,也可以做弯曲和伸直动作,甚至还能原地旋转。而且它的运动范围非常大。你会看到,关节之间的连接非常小,这就是为什么人手既能灵活,又能保持非常小的体积的原因。
而这,就是机器人工程师们面临的终极挑战——机器人灵巧手,英文叫Dexterous Hand,在机器人学里,它专门指高度仿人、具有多自由度、能够完成精细操作的机器人手。它能够模拟人手的抓取、操作和感知功能。那什么样的机器人手才能称得上"灵巧"?
第一,它得有足够多的"关节"。我们人手有27个自由度,而机器人灵巧手通常需要6个以上,高端产品能达到20-27个。这就像是给机器人装上了真正能"动手指"的手。
第二,它得有"绣花"般的精细控制。我们说的是毫米级甚至更精细的操作——想象一下用机器人手穿针引线,或者像我们一会儿要看到的那样,精准抓取只有5毫米的M5螺丝钉。
第三,它得有"触觉"。不只是能看到,还要能"感受"。触觉传感器、力觉传感器、位置传感器等等,就像给机器人装上了神经系统,让它知道抓得是轻是重,是软是硬。
第四,它得会"察言观色"。遇到圆的就用一种抓法,遇到方的就换另一种。看到玻璃杯就轻拿轻放,看到铁块就可以用力一些。这就是自适应抓取的能力。
最后,它得长得像人手。人类世界的所有工具都是为人手设计的。如果机器人能够模仿人手的结构、功能和配置,它们就能快速且经济高效地应用,而无需改变我们的环境。
如果我们看看历史会发现,灵巧手从有这个概念,到现在逐步趋向成熟,已经走过了40多年的历程。
Stanford/JPL Hand开创了灵巧手的先河,3根"人形"手指,每根三个关节,配备触觉/力反馈。但它更像是证明"这事儿能做"的概念机。
Utah/MIT Hand、DLR Hand等各显神通,技术路线百花齐放,但都停留在实验室:能演示,但离实用还差十万八千里。
就在灵巧手还在实验室"纸上谈兵"时,简单粗暴的两指夹爪已经占领了工厂。虽然只能"抓"和"放",但便宜、稳定、够用。这就像是功能机时代——虽然简陋,但解决了核心需求。
Shadow Robot、Allegro Hand等陆续商业化,价格高达数万美元,主要服务科研机构。这个阶段就像早期个人电脑——功能有了,但普通人买不起。
2020年代:巨头入场
特斯拉入局改变游戏规则。马斯克不只要做灵巧手,还要规模化生产。同时,GPT等AI大模型的突破为机器人控制打开了新世界的大门。
特斯拉22个自由度的新手、TetherIA的300美元开源革命、各路开源项目涌现。灵巧手即将迎来"智能手机时刻"——从极客玩具变成人人可得的工具。
然而,灵巧手虽然迎来了巨大的突破,但还是有很多的难点。这个难点并不仅仅在技术上的突破,更重要的是要兼顾性能,成本还有可靠性,这就成了一个"不可能三角"。
02 灵巧手的"不可能三角":性能、成本、可靠性
在现场采访中,我才知道一个可能会颠覆很多人认知的观点:灵巧手的控制比整机控制要难10倍!
在TetherIA位于硅谷的办公室,我见到了他们一路以来设计的各种迭代版本,以及他们刚发布上线的这款开源的灵巧手产品Aero Hand Open。
在我自己真正上手尝试去控制灵巧手之前,我都非常不理解,一个完整的人形机器人要平衡、要走路、要导航,怎么可能比一只手还简单呢?但当我自己尝试去控制这只手的时候,发现真是没那么容易。
另外,我们觉得从整个整机系统角度来说,这个手的硬件本身也是很大的一个卡点。人手是非常灵巧的,它的相对尺寸很小,每个关节都很灵活,手指又非常纤细,还能做到速度和力量之间的平衡,并且特别经久耐用。
我们人类主要是靠双手和外界进行接触,但在传统的机器人里,更多的是避免机器人和外界接触,因为一旦接触就是碰撞,对机器人就有损伤,而手恰恰需要和外界接触,所以综合起来,这些都是硬件上的难点。
除了硬件和控制的难点,其实还有很多更不为外行所知的地方。比如,你在控制的同时,希望能够让human-in-the-loop(人机回圈),让人在其中对机器人产生影响和作用,这就牵扯到遥操系统,以及开发过程当中的仿真系统,以及背后整个体系。其实都有很多的困难。
我在操作的过程中感觉到视觉与力量的协作,是非常关键的。由于我是完全感知不到触感和力度,我抓握的完全是空气,只能凭借我的眼睛观察灵巧手与物体的接触反馈来及时调整。这就很像软件驱动灵巧手的过程。
我们知道,人类的抓握过程依赖于神经系统、肌肉控制和多模态感知。
第二个阶段是反馈控制(Feedback Control),在手指接触物体后,实时通过触觉和滑动信息进行调整。如果物体开始滑动,神经系统将在
如果灵巧手要完全复制人手的这个反馈闭环,需要的不只是传感器和控制算法的堆叠,而是一个更接近人类神经系统的分层控制架构。可以类比为"大脑控制"和"小脑控制":大脑控制依赖视觉、经验和推理,用于规划动作和做出高层决策;而小脑控制则依靠触觉、力反馈和实时的平衡调整,负责细节上的动态微调与协调。
所以在2023年年底,BC特斯拉的第二代人形机器人Tesla Optimus Gen 2发布捏鸡蛋的demo那么受到关注,正是因为它基于视觉的"大脑"和基于力控的"小脑"在协作进步。
虽然实现这一切很难,但要真正实现机器人在多场景下的应用,还真是得依靠灵巧手不可。这个逻辑很简单:人类世界是为人类设计的。所有的工具、设备、环境都是按照人的尺寸和能力来设计的。要让机器人真正融入人类世界,最有效的方法就是让它们具备类似人类的能力。
所以,要想让灵巧手真的走向产业化、还有一个难题要解决,那就是灵巧手的"不可能三角"。如果把机器人灵巧手比作一个三角形,那么它的三个顶点分别是:性能、成本、可靠性,而这个三角形有个残酷的特点:你只能优化其中两个角,第三个必然会受到牺牲。
想要高可靠性?那就得简化设计,减少故障点。越复杂的系统,维护成本越高,故障率也越高。但这样一来,性能又会大打折扣。
因为机械手每一个关节、每一个自由度的运动都需要有电机来控制,如果把电机做得很小,它的功率输出和性能就会相应变弱。所以,要想匹配人手的自由度、人手的尺寸、以及人手的力输出和速度,就是一个非常困难的"不可能三角"。
这就像是在玩一个永远无法获胜的游戏,除非你能够找到突破这个三角形的新方法,而在产业中,大家一直在寻找这样的方法来突破不可能三角,这也衍生出了灵巧手江湖中的6大门派。
03 技术流派大揭秘:6大门派的江湖恩怨
为了解决灵巧手的"不可能三角",在机器人灵巧手的江湖里,主要有六大门派,各自有着不同的武功路数:
Chapter 3.1直驱派:简单粗暴的"搭积木选手"
这种设计的优点在于方便精细控制。缺点在于,电机驱动器体积小、抗冲击差、不可反驱、指末端力输出小,而且维护和维修都不太方便。
他们的设计思路最接近人体:把"肌肉"(电机)放在前臂,通过"肌腱"(钢丝绳或高强度合成纤维)来控制手指运动。
这就像是控制木偶一样——所有的线都连到一个中央控制台,通过拉动不同的线来实现复杂的动作。这种设计的优点是轻量化、力量输出稳定、具备一定自适应能力,而且布局和人体更接近。特斯拉最新的Optimus手宣称它拥有22个自由度,已经非常接近人手的27个自由度了。我们实地探访的TetherIA他们现在推出的这款高性价比灵巧手也是采用的绳驱方案。
虽然特斯拉是坚定走"绳驱"路线——但是我们看到其实很多创业公司,真正跟随特斯拉技术路线的并不多,而且很多人会质疑特斯拉。为什么呢?我们觉得,因为"绳驱"最根本的优势,就是刚才我介绍的,能够实现比较好的力输出和自适应。但它根本的劣势在于,尤其是对于欠驱动来说,它没有办法实现精准控制。因为它是欠驱动,每个地方的力输出会随着自适应的情况不同而不同。
这个时候,就需要我们能够在软件里,对"绳驱灵巧手"的各个模块进行精准的建模。只有你很好地理解这个手在不同条件下会发生什么样的变化,你才可能实现精准的控制。
Chapter 3.3液压派:追求极致力量的"暴力美学"
液压系统的优势是力量大、响应快、功率密度高,能完成高负载任务,但传统上液压系统都很庞大。Sanctuary AI的突破在于将液压组件小型化到硬币大小,并且经过了20亿次循环测试而无泄漏。
这就像是把挖掘机的液压系统缩小到了手表的尺寸,技术难度可想而知。不过,液压系统依然面临成本、维护、噪音和能效方面的挑战,因此目前主要用于特定工业和研发场景。
Chapter 3.4 连杆派:发挥机械美学的"优雅派"
这种方案的优点是结构紧凑、自由度高、外形优雅,充分展现了机械设计的美感;但它的缺点也很突出——抗冲击性较差,在复杂或高负载场景下可靠性不足,导致整体实用性偏低。
Chapter 3.5 混合派:工程师的"中庸之道
混合方案之前一直停留在学术研究领域,而TetherIA正在通过混合派路线,开发他们旗下的另外一款高自由度灵巧手方案。他们通过剖析人手的具体功能和结构(结合绳驱及拉杆方案),将上面提过的绳驱、拉杆等方案有机结合在一起,通过强大的工程化实现能力,开发出了一款既高效又可靠的高自由度灵巧手方案。
Chapter 3.6 值得一提的"开源派"
从DexHand到ORCA Hand,越来越多的开源项目正在降低技术门槛。这就像是Android系统对手机行业的影响一样,可能会彻底改变游戏规则。
而TetherIA在研发一款高自由度、非常接近人手性能的灵巧手的同时,发现系统其实可以极致简化,于是也做出了一款低自由度、但据说也是市面上性能最好之一的灵巧手。这款灵巧手已经在前阵子发布,并全部开源,售价仅仅为300美元。
04 四个Deomo背后的技术密码
接下来通过四个TetherIA的最新产品展示demo,我们来看看每个看似简单的动作背后隐藏着什么样的技术挑战。
Chapter 4.1 抓取螺丝钉
M5螺丝钉直径只有5毫米,这个demo看起来简单,实际上是对精细控制能力的终极考验。
Chapter 4.2 抓取大物件
抓大盒子的挑战完全不同。这时候,机器人手只有指尖的一小部分在接触物体,就像是用指甲尖去抓握一个篮球。
Chapter 4.3 开可乐
开可乐是最让人印象深刻的dem,因为它真正展现了机器人手的"人性化"特征。
另外,在生活中很多细节上,比如洗菜、做饭、剥菜的过程中,其实都会用到。我们这里不仅仅是一个"指甲",更重要的是手前端的设计,能够用软物质包裹,自适应,而且曲率非常接近人手的曲率,所以才能够实现这些功能。
Chapter 4.4 拿iPhone——桌面操作的"终极考验"
这个看似最简单的动作,实际上是技术含量最高的。iPhone紧贴桌面,手指必须伸入只有几毫米的缝隙中,还不能与桌面发生硬碰撞。
另外一个难点是:抓的时候,手指会不可避免地跟桌面接触,从而增加灵巧手损伤的概率。我们的手能解决这些问题:一有自适应过程,在抓的时候能够调整力的方向,让它抓稳并拿起来;二是因为我们是"绳驱"方案,让手在接触桌面的时候自适应,而不是直接碰撞和对抗,从而减少损伤。
05 AI大模型时代的灵巧手
目前,我们正处在一个特殊的历史时刻:AI大模型的突破为机器人技术带来了前所未有的可能性。
比如前面说的Vision-Language-Action(VLA)模型,就给机器人的"大脑升级"。传统的机器人需要为每个任务编写专门的程序,而VLA模型让机器人能够理解自然语言指令,并将其转化为具体的动作。这就像是给机器人装上了"翻译机"——它能够将"帮我倒杯水"这样的自然语言翻译成具体的动作序列。
Evan Tao
TetherIA联合创始人兼CEO
这个的确是机器人在做的过程中的一些难点,主要是在于,因为物理世界是非常复杂的,我们仿真的过程中肯定是简化了很多的一些参数。比如像物体比较多的摩擦力、刚性、柔软的程度,仿真的模型并不能够很好的去体现。并且我们在物理世界设计机械手、生产机械手的过程也会有一些的误差,所以这也是我们一直在克服的东西。
这就像是在游戏中练习开车和在现实中开车的区别——基本技能可以学会,但真正的路感还是需要实际体验。
不仅如此,甚至在硬件上,AI也在发力。机器人昂贵的一个原因,是它的供应链比较缺乏。很多这种驱动器都是专门为了机器人定制的,目前来说产量也比较低,所以整个行业的成本还没有办法做得非常便宜。并且,传统机器人的设计是通过不断提高产品的精度,来实现很多高级、炫酷的功能。但是现在有了AI的加持,对机器人硬件的精度要求就不会再继续那么高,所以整体的价格我们相信会越来越低。
我们这款低自由度的产品,是结合了我们在设计高自由度的过程当中,对于整个整体结构设计的一些经验,然后并且采用了市面上主流的off-the-shelf(现成的)的这种电机,所以能够做到极致的低成本。
这就像是Google的Android策略——虽然苹果的iOS可能在单个产品上更优秀,但Android通过开放生态获得了更大的市场份额。而且通过开源硬件,全世界的研究者都成为数据贡献者。
06 机器人走进家庭的前夜:从拥有一双真正灵巧的手开始
回顾机器人灵巧手的发展史,其实就是人类技术进步的一个缩影。我们从模仿自然开始,逐步理解其中的原理,然后用工程的方式去实现,最终可能会超越自然的原型。
我们在采访中发现,TetherIA的故事特别有意思,因为它代表了一种新的发展模式:通过开源降低门槛,通过众包加速创新,通过生态建设推动产业发展。这就像是Linux对操作系统行业的影响,或者Android对移动行业的影响一样。
当然,从300多美元的开源版本到真正实用的家庭机器人,这中间还有很长的路要走。技术上的挑战、成本上的压力、应用场景的探索,每一个环节都充满了不确定性。
也许再过数年,我们回头看2025年,会发现这是机器人真正走向普及的起点。到那时,每个家庭都可能有一个机器人助手,能够帮我们做饭、打扫、照顾老人、陪伴孩子。而这一切的起点,就是让机器人拥有一双真正灵巧的手。
以上就是我们机器人系列的第一期的内容,之后我们还会走访硅谷明星初创公司和一线研发机器人的团队,从大脑、AI算法、数据、脑机接口等多个维度来深度聊聊机器人如今的研发现状。关于机器人,大家还有什么想问的、想聊的,欢迎在评论区一起告诉我们吧。