关于ZAKER 合作
三易生活 53分钟前

Gemini 能与第三方 App 交互,谷歌盯上了用户的数据

只需要一句话,AI 助手就可以调用手机上的第三方 App 为你点奶茶、订餐厅、买车票,随着 AI 视觉、智能体、MCP 等技术和标准的问世,手机上的 AI 终于开始有了实用性。就在国内 Android 阵营手机厂商纷纷开始探索 AI 自主操控第三方 App 后,谷歌也坐不住了。

日前有消息显示,谷歌方面在本周一更新了部署 Gemini AI 的新策略,即 Android 系统将允许 Gemini 访问第三方应用。据悉,谷歌已经通过邮件的方式通知用户 Android 近期将落地这项调整,无论是否开启或关闭 Gemini 的应用活动(App Activity),都将给予 Gemini 权限、以访问 WhatsApp 等第三方应用。

值得一提的是,谷歌方面强调 " 人工审核员(包括服务提供商)会阅读、注释和处理 "Gemini 访问的数据,但其并未提及任何有关于用户应该如何彻底移除 Gemini 集成的方式。再加上谷歌在邮件中只写到 Gemini" 不会保存 72 小时前的活动记录 " 这种模棱两可的说法,因此也导致许多用户对于 Gemini 到底会如何处理与第三方应用交互时产生的数据抱有疑虑。

针对用户的疑虑谷歌方面宣称," 这个更新对用户来说是好的,现在他们可以在关闭 Gemini 应用程序活动的情况下,在移动设备上使用 Gemini 来完成日常任务,比如发送消息、发起电话呼叫和设置计时器。当 Gemini 应用程序活动关闭时,他们的 Gemini 聊天不会被审查或是用于改进我们的 AI 模型。"

如今一个令人玩味的事实,是在谷歌宣布 Gemini 支持与第三方应用交互前,荣耀就已经率先在 MagicOS 9.0 上实现了一句话让 AI 自主操控第三方应用。不过荣耀使用的是纯视觉方案,无需第三方应用适配,而谷歌这次是走的智能体路线,是通过 Gemini 来调用第三方应用的 API 接口,不用每一步都进行感知、决策和执行。

为什么谷歌不用纯视觉方案呢?事实上,让 AI 像人一样操作电脑、手机的解决方案始于 Anthropic 的 "Computer Use" 功能,但如今 AI 业界的主流是 MCP(模型上下文协议),即通过标准化协议的方式让 AI 来调用外部工具。其实放弃纯视觉方案的原因也很简单,因为它的效率远低于 MCP,强行让 AI 适配人类的交互方式得不偿失。

可问题就在于,AI 直接通过 API 调用第三方应用会带来明显的数据泄露风险,并非所有人都愿意相信谷歌的 " 节操 "。经过过去这两年多时间的洗礼,科技巨头对于 AI 的态度已经摆在了明面,各家纷纷将摘取人工智能领域的 " 圣杯 " —— AGI(通用人工智能)作为头等大事,而对于数据这一训练更强大 AI 模型的基石,则可谓是八仙过海各显神通。

比如,Meta 就重拾出于道德考量、而搁置的人脸识别技术,准备将自家智能眼镜来作为数据采集的工具;亚马逊宣布 Echo 智能音箱只允许用户将所有语音记录发送至云端,禁用录音保存在本地的隐私功能;苹果、英伟达未经授权使用 YouTube 上的视频,来训练 AI;Anthropic 使用盗版图书库打造 Claude 大模型。

不难发现,各大厂商为了收集数据来训练出更强大的 AI,不约而同撕下了以往温情脉脉的面纱,几乎个个都在打擦边球。

在 Meta、亚马逊、苹果等公司都 " 不干净 " 的情况下,谷歌真的就能 " 出淤泥而不染 "?事实上,谷歌在一众硅谷大厂里还属于吃相比较难看的一批,他们违规收集用户数据被抓现行也不是一次两次了。别的不谈,就在本月初,谷歌方面因为非法收集美国加州地区 1400 万 Android 用户的移动数据信息,就被判支付超过 3.146 亿美元得赔偿金。

当然,即便还抱有疑虑,但绝大多数用户也只会捏着鼻子接受谷歌的这一决策,毕竟 Gemini 能够与第三方应用交互本身的想象空间实在太大,它或许真能改变用户使用 Android 系统的方式。

早在 2017、2018 年时,Android 阵营就曾掀起了一轮智能语音助手的浪潮,但仅仅两年时间,智能语音助手就很快过气。原因无它,因为智能语音助手实际效用有限,仅局限于定闹钟、打电话、打开 App 等简单操作,面对复杂指令时就会陷入 " 鸡同鸭讲 " 的死循环,所以用户很难体验到它的魅力。

同理,用户如今对于手机 AI 反应平淡,也是因为它的能力还相对有限。比如三星手机 " 即圈即搜 " 等少数出圈的 AI 能力,也是因为用户在日常生活中会频繁使用搜索,只需要画个圈就能搜索选中的内容,所以 AI 带来的变化可以说是立竿见影。

其实 " 即圈即搜 " 就是 Gemini 交互第三方应用的一个体现,其通过视觉模型识别用户圈选的内容,然后调用谷歌搜索的 API 来为用户直接呈现内容。大家不妨试想一下,如果只需动动嘴皮子,搭载了 Gemini 的 Android 手机就能帮你点咖啡、订餐厅、发红包、拨打微信电话、生成会议纪要、翻译文档,会带来怎样的体验。

所以当一边是自己的数据可能会被谷歌拿去迭代 Gemini,另一边则是允许 Gemini 调用第三方应用的能力会带来肉眼可见的便捷时,相信会有不少人选择拿自己的隐私换取便利。只能说,这一回谷歌是真的玩了一把 "Copy from China"。

【本文图片来自网络】