蓝鲸新闻 6 月 25 日讯(记者 武静静)6 月 25 日,Google DeepMind 正式发布首个可完全在机器人本地部署的视觉 - 语言 - 动作模型(Visual-Language-Action, VLA)—— Gemini Robotics On-Device。
这也意味着,具身智能(Embodied AI)正在从依赖云端算力,迈入本地自主运行的关键转折点,也为产业落地打开了新的可能性窗口。
少量演示即可快速学习,具有跨机器人形态泛化能力
一直以来,具身智能的部署面临着两大挑战:一是对云计算资源的重度依赖,这限制了机器人在网络不稳定或无网络环境下的独立作业能力;二是模型体积庞大,难以在机器人有限的计算资源上高效运行。
据官方介绍,Gemini Robotics On-Device 能够在算力受限的机器人设备上本地运行,同时展现出卓越的通用性和任务泛化能力。由于该模型无需依赖数据网络,因此对于对延迟敏感的应用程序具有显著优势。
值得注意的是,尽管模型最初针对特定机器人训练,但它能泛化到不同的机器人形态,如双臂机器人和人形机器人,极大地扩展了其应用潜力。在演示视频中可以看到,在双臂 Franka 上,该模型可以执行通用指令,包括处理以前未见过的物体和场景、完成折叠衣服等灵巧的任务,或执行需要精确度和灵巧性的工业皮带组装任务 。
此外,谷歌首次开放 VLA 模型的微调功能,这意味着工程师或机器人公司可以基于自有数据对模型进行定制训练,从而优化其在特定任务、场景或硬件平台上的表现,进一步提升应用效率与实用价值。同时,谷歌还推出了 Gemini Robotics SDK,方便开发者进行模型评估和快速调整。从这些动作可以看出,谷歌希望为机器人领域提供一个开放、通用且易于开发的平台,就像安卓系统为智能手机行业所做的那样。
具身智能正在进入 " 端侧时代 "
" 这标志着机器人终于可以走入真实环境了。一位具身智能领域专家告诉蓝鲸科技记者,"以往受限于带宽和算力,很多机器人 AI 只能做示范。这次谷歌的进展,意味着通用模型可以真正运行在硬件终端上,未来不依赖联网也能做复杂操作。"
具身智能一度被认为是 AGI 通向现实世界的桥梁,而具备本地部署能力的 VLA 模型,则是这座桥梁通车的关键一环。前述专家告诉蓝鲸科技记者,本地 VLA 模型将使得机器人更适合家庭、医疗、教育等敏感场景,解决数据隐私、实时反应、安全稳定性等核心挑战。
过去几年,大语言模型的 " 端侧部署 " 已成为重要趋势之一。从最初依赖大规模云端计算资源,到如今能够在手机、平板等边缘设备本地运行,模型的压缩优化、推理加速与硬件协同不断取得进展。
同样的演进路径,正逐步发生在具身智能领域。VLA 模型(视觉 - 语言 - 动作)作为具身智能的核心架构,其本质是让机器人具备从多模态信息中理解任务并做出行动的能力。此前这类模型往往需要依赖强大的云端资源进行推理和决策,受制于网络带宽、算力功耗与实时性瓶颈,难以在现实复杂环境中高效运行。
谷歌此次发布的 Gemini Robotics On-Device,意味着具身智能正在进入类似语言模型的 " 端侧时代 "。它不仅在有限算力下实现了稳定运行,还具备良好的通用性与迁移能力,能够支持快速学习与适配不同任务和机器人形态。此次发布,也可能引发业界连锁反应。随着 AI 算力和模型架构的持续演进," 边缘智能 " 正从传统的物联网(IoT)走向以具身智能为代表的更高级阶段。
本地 VLA 模型将成为下一个必争之地。"目前各类机器人在本体结构、自由度和传感器配置上的差异,使得统一的软件架构难以实现。" 一位关注机器人领域的投资人表示,"一旦硬件标准趋于统一,正如智能手机生态中 USB 接口、键盘、屏幕等通用组件所形成的规范一样,将大大推动算法的标准化与本地部署的实现。" 他认为,谷歌正在构建的 " 机器人安卓生态 " 愿景,预示着一个更加标准化、易于开发与普及的具身智能有望到来。
不过,在实际落地中挑战依旧不容小觑,机器人硬件的多样性和复杂性依然是突出问题,市场上形形色色的机器人硬件意味着即使是强大的通用模型,也需针对每种具体硬件进行细致的适配和调优。此外,要在海量、多样化的实际应用场景中真正落地,数据收集和标注的成本可能异常高昂,特别是在需要专业操作知识和设备的工业或特定服务场景。
更重要的是,机器人需要在极其复杂、动态且不可预测的真实世界环境中保持鲁棒性。光照变化、物体遮挡、非结构化杂乱环境,以及人机交互中的细微差异,都将对模型的实时感知和决策能力提出严苛考验。确保机器人在各种实际场景中都能保持高水平的稳定性和安全性,是未来具身智能发展必须持续攻克的难题。