APP下载

关于ZAKER

合作

蓝鲸财经 5分钟前

谷歌发布本地 VLA 模型，机器人界的“安卓系统”要来了？

图片来自视觉中国

蓝鲸新闻 6 月 25 日讯（记者武静静）6 月 25 日，Google DeepMind 正式发布首个可完全在机器人本地部署的视觉 - 语言 - 动作模型（Visual-Language-Action, VLA）—— Gemini Robotics On-Device。

这也意味着，具身智能（Embodied AI）正在从依赖云端算力，迈入本地自主运行的关键转折点，也为产业落地打开了新的可能性窗口。

少量演示即可快速学习，具有跨机器人形态泛化能力

一直以来，具身智能的部署面临着两大挑战：一是对云计算资源的重度依赖，这限制了机器人在网络不稳定或无网络环境下的独立作业能力；二是模型体积庞大，难以在机器人有限的计算资源上高效运行。

据官方介绍，Gemini Robotics On-Device 能够在算力受限的机器人设备上本地运行，同时展现出卓越的通用性和任务泛化能力。由于该模型无需依赖数据网络，因此对于对延迟敏感的应用程序具有显著优势。

更为关键的是，该模型在实际操作中展现出高水平的通用能力和稳定性。Google DeepMind 展示的演示视频中，机器人在无网络连接状态下完成了如 " 把一个魔方放进包装袋里 "" 拉开一个包包的拉链 " 等任务，涵盖感知、语义理解、空间推理和高精度执行多个环节。

DeepMind 研究人员表示，它具备 Gemini Robotics 的通用性和灵活性，可以立即处理各种复杂的双手任务，且只需 50-100 次演示，它就能学习新技能。一位机器人领域工程师告诉记者，目前大部分机器人需要进行成千上百次训练，才能完成一个任务。这意味着，谷歌的新模型极大地扩展了模型的应用范围和部署灵活性。

值得注意的是，尽管模型最初针对特定机器人训练，但它能泛化到不同的机器人形态，如双臂机器人和人形机器人，极大地扩展了其应用潜力。在演示视频中可以看到，在双臂 Franka 上，该模型可以执行通用指令，包括处理以前未见过的物体和场景、完成折叠衣服等灵巧的任务，或执行需要精确度和灵巧性的工业皮带组装任务。

此外，谷歌首次开放 VLA 模型的微调功能，这意味着工程师或机器人公司可以基于自有数据对模型进行定制训练，从而优化其在特定任务、场景或硬件平台上的表现，进一步提升应用效率与实用价值。同时，谷歌还推出了 Gemini Robotics SDK，方便开发者进行模型评估和快速调整。从这些动作可以看出，谷歌希望为机器人领域提供一个开放、通用且易于开发的平台，就像安卓系统为智能手机行业所做的那样。

具身智能正在进入 " 端侧时代 "

" 这标志着机器人终于可以走入真实环境了。一位具身智能领域专家告诉蓝鲸科技记者，"以往受限于带宽和算力，很多机器人 AI 只能做示范。这次谷歌的进展，意味着通用模型可以真正运行在硬件终端上，未来不依赖联网也能做复杂操作。"

具身智能一度被认为是 AGI 通向现实世界的桥梁，而具备本地部署能力的 VLA 模型，则是这座桥梁通车的关键一环。前述专家告诉蓝鲸科技记者，本地 VLA 模型将使得机器人更适合家庭、医疗、教育等敏感场景，解决数据隐私、实时反应、安全稳定性等核心挑战。

过去几年，大语言模型的 " 端侧部署 " 已成为重要趋势之一。从最初依赖大规模云端计算资源，到如今能够在手机、平板等边缘设备本地运行，模型的压缩优化、推理加速与硬件协同不断取得进展。

同样的演进路径，正逐步发生在具身智能领域。VLA 模型（视觉 - 语言 - 动作）作为具身智能的核心架构，其本质是让机器人具备从多模态信息中理解任务并做出行动的能力。此前这类模型往往需要依赖强大的云端资源进行推理和决策，受制于网络带宽、算力功耗与实时性瓶颈，难以在现实复杂环境中高效运行。

谷歌此次发布的 Gemini Robotics On-Device，意味着具身智能正在进入类似语言模型的 " 端侧时代 "。它不仅在有限算力下实现了稳定运行，还具备良好的通用性与迁移能力，能够支持快速学习与适配不同任务和机器人形态。此次发布，也可能引发业界连锁反应。随着 AI 算力和模型架构的持续演进，" 边缘智能 " 正从传统的物联网（IoT）走向以具身智能为代表的更高级阶段。

本地 VLA 模型将成为下一个必争之地。"目前各类机器人在本体结构、自由度和传感器配置上的差异，使得统一的软件架构难以实现。" 一位关注机器人领域的投资人表示，"一旦硬件标准趋于统一，正如智能手机生态中 USB 接口、键盘、屏幕等通用组件所形成的规范一样，将大大推动算法的标准化与本地部署的实现。" 他认为，谷歌正在构建的 " 机器人安卓生态 " 愿景，预示着一个更加标准化、易于开发与普及的具身智能有望到来。

不过，在实际落地中挑战依旧不容小觑，机器人硬件的多样性和复杂性依然是突出问题，市场上形形色色的机器人硬件意味着即使是强大的通用模型，也需针对每种具体硬件进行细致的适配和调优。此外，要在海量、多样化的实际应用场景中真正落地，数据收集和标注的成本可能异常高昂，特别是在需要专业操作知识和设备的工业或特定服务场景。

更重要的是，机器人需要在极其复杂、动态且不可预测的真实世界环境中保持鲁棒性。光照变化、物体遮挡、非结构化杂乱环境，以及人机交互中的细微差异，都将对模型的实时感知和决策能力提出严苛考验。确保机器人在各种实际场景中都能保持高水平的稳定性和安全性，是未来具身智能发展必须持续攻克的难题。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

谷歌发布本地 VLA 模型，机器人界的“安卓系统”要来了？

宙世代

一起剪

相关阅读

存款利率一降再降，银行员工慌了

午后全线爆发！国防军工10股涨停

短债策略产品增投中长债，杭银理财怎么想的？

多只金融科技ETF大涨逾7%

一季度狂揽50亿刀，替尔泊肽凭什么成为减肥顶流？

一天卖6万辆！6月车市销量疯涨：零售量同比激增近1/4

日御光伏：三年经营性现金净流出近80亿元，资金链紧张问题凸显

指南针：公司不存在违反公平信息披露规定的情形

贸易局势持续紧张，光伏出海何处转圜？

7连板诺德股份：铜箔业务应用于固态电池领域的收入占公司总营业收入不足1%

2连板天际股份：子公司已获得硫化锂相关专利授权，正在推进产业化

科创板第五套标准重启首单：禾元生物“稻米造血”能走多远？

深市规模最大的机器人ETF（159770）涨超1.5%，盘中再获1.1亿申购

A股午评：创业板指大涨1.34%，大金融股持续爆发

炒保险股的人赚了！A股保险指数年内涨近10%，众安在线因稳定币概念股价狂拉

最新评论

蓝鲸财经

热门推荐

热门订阅 换一批

骑鲸出海

蓝鲨财经社

董秘学苑

热门订阅换一批