文 | 产业家,作者 | 妍旭
从最初的 "AI 是不是噱头 ",到 "AI 只是多了个语音助手 ",再到 "AI 功能很酷,但并不常用 " ……在定义何为 " 真正的 AI 手机 " 这件事上,行业始终争论不休。
但最近发生的几件事,把"AI 手机未来该往哪走 "这一问题推到了台前。
一边是终端厂商的系统级融合。如字节豆包与中兴合作推出 AI 手机,试图将大模型作为底层原力注入硬件。再如向来奉行封闭生态的苹果,开始在系统级 AI 上向外 " 借脑 ",和谷歌、微软等外部大模型合作,用于升级 Siri 及 Apple Intelligence 功能。
另一边是应用巨头的 " 生态自建 "。在腾讯 2025 年 Q3 财报电话会上,腾讯总裁刘炽平明确表示,微信会推出一个 AI 智能体(Agent),使它成为每位微信用户的个性化私人助理。
1 月 15 日,阿里旗下千问 APP 宣布全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,用户通过语音或文字指令即可 30 秒完成跨平台复杂任务如点外卖、买东西、订机酒等。
看似分散的诸多事件,共同指向一个极具张力的宏大猜想:手机这个终端,正在从一个 " 装满 APP 的屏幕 ",进化为一个有自主性和感知决策能力的 "AI 入口 "。
一、AI 手机,路径分野
2023 年 10 月,高通发布骁龙 8Gen3,联发科推出天玑 9300,NPU 性能的暴涨让手机 +AI 大模型成为现实。Deepseek 爆火带动生成式 AI 应用全面开花,C 端用户的 AI 需求被彻底点燃。
技术条件成熟,应用需求得到验证,AI 手机也从概念走向规模化。IDC 中国区总裁霍锦洁表示,2024 年全球新一代 AI 手机出货量将达到 1.7 亿部,占智能手机整体出货量的 15%。行业预计 2026 年全球 AI 手机渗透率将突破 38%。

一条是由操作系统或终端厂商主导的 AI 原生化,也就是我们常说的 GUI Agent。它并不要求应用本身为 AI 做出改造,而是试图让 AI 像人一样理解、操作界面。
豆包 AI 手机是 GUI 最为典型的落地样本。去年 12 月,豆包手机助手技术预览版发布,首次将 "AI 接管决策 " 这一设想在终端完整呈现。用户只需一句「帮我比价下单」,手机页面开始自动跳转、识别界面、点击按钮、领券、结算,全程不依赖任何官方接口。这种近乎拟人化的操作拓展了 AI 手机的想象边界,迅速在科技圈引发热烈讨论。
魅族也是 GUI 路线的推崇者,它是国内最早提出 " 视觉一体化 " 概念的厂商之一。在去年 5 月最新发布的 Flyme AIOS 2 操作系统中,其搭载的 "Task Robot" 便是旨在由 AI 模拟人工在 GUI 界面上进行点击和操作。

阿里千问和未来将要推出的腾讯微信 Agent 便是这一路线的践行者。前者通过 MCP+A2A 的通用 Agent 体系,把淘宝、飞猪、支付宝、高德等拆成大量原子能力,接入 " 任务助理 ";后者则被业界普遍预期,会把微信、企业微信、小程序等生态能力全面 Agent 化。
对用户来说,只需一句自然语言指令,便可以触发跨搜索、社交、支付、出行等多业务协作,真正体现出 " 任务拆解 + 跨服务调用 " 的 A2A 精髓。
在刚刚结束的千问发布会上,这一路线的落地效果有了更直观的呈现。用户只需一句「帮我点 40 杯霸王茶姬的伯牙绝弦」,千问即可在不跳转页面的情况下完成选品、下单和支付,几分钟后奶茶送达;输入「春节带家人去三亚」或「帮我规划云南旅行」,千问则会联动飞猪和高德完成机票、酒店、行程规划及必要电话确认,实现 " 一句话,整套行程自动排好 ";在政务和民生服务中,如用户问「杭州户口如何办理护照」,千问不仅能讲清政策和材料清单,还可直接给出线上办理入口,帮助用户少跑冤枉路。
如千问 C 端事业群总裁吴嘉在发布会上所言,"AI 在拥有超强大脑之后,开始长出了能够触达真实世界的手和脚,在生活中实实在在地替用户干活。"
两条路线各有所长。GUI 路线最大优势在于 " 无感兼容 ",理论上,AI 只要能看懂屏幕,就能直接完成操作,A2A 由于是通过协议直接调用 APP,其执行的精准度与响应速度远高于模拟点击,在效率和准确性上更优,也更适合交易、支付、履约等高价值、高风险场景。
目前来看,两条路线虽然都撞上了既有 APP 生态的 " 柏林墙 ",但 GUI 路线下,由于涉及更多系统级权限与隐私数据,相关风险更早暴露,落地过程中的摩擦与阻力也更加明显。
豆包手机限量发售后仅 2-3 天,微信、支付宝、美团、以及建行、农行等主流银行 APP,便已经对豆包式的自动化操作做了不同程度的技术和风控限制:有的触发安全风控导致登录异常,有的直接识别并屏蔽此类 " 代操作 " 行为。
系统级 AI 的控制权,几乎是所有手机厂商都不愿外放的底牌,必须握在自己手中。这也导致豆包手机虽然在交互创新上给出了积极的探索,但短期内还是很难进入国内头部手机厂商的合作视野。
所以我们会看到,华为、荣耀、小米等头部手机厂商一边对豆包助手在 OS 做系统层掐断(如权限拒绝),一边力推自家 AI 助手。华为升级 " 小艺 " 把智能体深度绑定进鸿蒙生态,小米以 " 超级小爱 " 承接系统级多模态交互与跨应用执行,荣耀则在发布会上让 YOYO 上演 " 一口气点 2000 杯咖啡 " 的花活儿,向用户展示出 " 系统级会动手 "。
某种程度上,这是手机厂商们在用 " 自有智能体 " 替代 " 外来总管 ",展示出其既要占住 AI 入口,又要守住生态主导权的决心。
相比之下,虽然能预见的是,A2A 同样绕不开不同应用厂商 " 商业授权 " 这道坎,却已是目前在局部范围内展现出的 " 最优解 "。
阿里千问系 Agent 或微信 Agent,通过自有生态内的高频、高价值场景,验证 A2A 路线的技术可靠性,实现 " 小原生 ",再以统一协议和成熟范式为样板,逐步对外开放接口,吸引更多第三方服务以 " 接入 Agent 网络 " 的方式走向 " 更大的原生 "。
据了解,吴嘉还在千问发布会后的采访中透露," 除了接入阿里生态,千问会在未来接入第三方的产品,这件事已在讨论中。"
至少在现阶段,这种从内部生长出来的秩序,比强行接管外部 APP 的 GUI 路线面临的阻力要更小。
二、可控性进化:AI 手机的第一要义
从演进方向来看,GUI 更像从更高一级调度层出发," 自上而下 " 统筹各类应用,A2A 则像由业务自身先完成智能体改造,再逐步形成协作网络的 " 自下而上 "。
若论体验感,GUI 路线明显更优,因为它更 " 未来 ",用户很容易在演示场景中发现 "Aha moment"。若论成熟度和稳定性,A2A 路线有更大概率发展成可持续的基础能力,也符合 AI 手机的演进方向。

但这并不意味着两条路线必然走向对立。OPPO ColorOS 智慧产品研发负责人姜昱辰就曾在采访中提到,"OPPO 将采取差异化策略,针对社交、支付等高频使用场景,优先构建智能体间的直接通信协议;而对于低频长尾需求,则保留图形界面交互作为补充方案。"
这背后,其实对应着两种截然不同的技术范式:AI 是 " 模拟人做事 ",还是 " 直接调用能力 "。GUI Agent 在简单场景下尚可奏效,但一旦涉及多步骤、多分支的复杂任务,稳定性就会下降。
相比之下,当 AI 是从应用本身出发,完成从 APP 到 Agent 的升级,其基于工作流的进化和理解是循序渐进的,与之对应的是复杂任务成功率也会显著提升。由此可见,AI Agent 竞争的核心,不止在于 " 能力有多强 ",更在于 " 是否足够可控 "。
真正的分水岭,出现在合规与责任界定。中国信通院牵头发布的《端云协同智能体交互双重授权安全指引》,重点提到了 " 构建由用户和应用双重授权的安全机制 ",明确智能体 AI" 需同时获得应用授权与用户授权,才能合法访问第三方应用 "。

隐私与数据安全,进一步放大了 GUI 路线的风险。为了跨 APP 代操作,GUI Agent 往往需要使用诸如 READ_FRAME_BUFFER、INJECT_EVENTS 这类系统级敏感权限,直接读取屏幕画面、模拟点击与输入。
对普通用户而言,这等价于把自己的聊天记录、支付页面、验证码输入、银行余额,一次性暴露给一个 " 看不见的助手 "。即便产品方声称 " 数据不上云 "" 截图不存储 ",用户也很难真正理解数据在本地和云端之间的流动路径,信任门槛非常高。
这种担忧并非用户的 " 技术焦虑 ",而是已经在行业内部被反复讨论的现实风险。中国信通院数安智库专家曾令平接受媒体采访时坦言,系统级 AI 确实存在多重风险。
" 顶格的系统权限如同开‘后门’,可读取屏幕上的所有信息,包括各种隐私数据;模拟点击功能可能被恶意利用,威胁资金安全;部分厂商权限开通不透明,责任划分模糊,也会放大安全隐患。"
从现实反馈来看,监管与头部平台对这种可能 " 越权 " 的系统级能力始终保持高度警惕。一旦允许某个外部智能体在屏幕层面对金融操作、登录验证进行自动化处理,从技术上就必须假设:只要有权限,就存在被恶意滥用、被中间人攻击或被其他恶意程序劫持的可能。这也是为何在豆包手机助手的测试阶段,银行、支付类应用的自动化能力很快就被主动收缩和下线。

与之对应,A2A 路线在设计之初便明确区分了角色边界:人是决策主体,AI 负责执行和优化。用户负责给出目标与偏好,主 Agent 拆解任务并规划步骤,子 Agent 则在各自业务域内,调用经过应用方授权和封装的能力,在可控边界内协同完成任务。
在这一过程中," 用户授权 " 和 " 应用授权 " 被天然地绑定在一起:应用方通过协议公开哪些能力可以被智能体调用、调用频率如何限制、涉及哪些数据字段,这构成了 " 应用授权 " 的硬边界,也让用户更容易理解 AI 的能力范围。
与此同时,用户会在具体场景里授权某个 Agent 代表自己调用这些能力,并在关键决策节点给予确认。
AI 提出建议,人来拍板,最终由业务方按照协议执行。既降低了对系统级高权限的依赖,也将隐私与责任问题拆解到更细粒度的接口与交互之中,更易被监管接受,也便于平台审计。
如果再把时间周期拉长,A2A 更等同于搭建了一个有 APP 安全和数据安全协议底层的 " 超级 Agent"。
它的进化方式并非推翻现有生态,而是基于既有的用户行为逻辑,在保留现阶段软件生态、APP 生态基础和商业价值生态的基础之上,向 AI 迈出一步,为 C 端用户提供一种有真实体感的 " 体验附加项 "。
这也更符合近两年被频繁提及的 " 人本智能(Human-Centered AI)" 理念,即AI 的核心价值并非取代人,而是在安全、可控的边界内,承接人的目标与责任,把技术能力转化为对教育、医疗等普惠场景的真实改善。

试想一下,未来的某一天,你让淘宝 Agent 负责采购野餐装备,同时调用美团 Agent 订附近的下午茶。但在两个 Agent 的 " 对话 " 中,两者对 " 即时送达 " 的理解并不一致——淘宝认为是 " 当天可送 ",而美团默认的是 "30 分钟内送达 "。
结果在协商配送时间时,系统给出了一个双方都无法兑现的承诺:本该 " 无货 " 的商品,被包装成了 " 换个口味即可立刻送达 ",最终导致订单失败,用户白等一场。
但博弈往往是新秩序的前奏,就像过去二十年,互联网依赖 HTT、TCP/IP 这样的底层共识运行,随着技术革新的深化,不排除未来政策或行业层面可能出现 " 超级 Agent to 超级 Agent" 的公共协议。到那时,AI 手机才真正推开了通往全能交互的大门。
三、终极猜想:寻找 AI 时代的「iPhone」
如果说移动互联网时代的核心产品逻辑,是 " 以 APP 为中心组织服务 ",那么 AI 时代正在浮现的,是一个以 Agent 为中心重构产品、生态与用户体验的新范式。
回看移动互联网的爆发原点,苹果的伟大之处不止于 iPhone 的硬件参数,更在于它通过 App Store 建立了一套契合用户需求的移动互联网的软件生态。
借用历史视角回望,我们或能窥见未来 "iPhone" 的雏形。
其软件价值是一种能繁荣 Agent 生态的聚合能力,其硬件形态也未必是手机,甚至可能是眼镜、头显、手表等其他智能终端。
当应用不再是静止的图标,而是以 Agent 的形式流动起来时,AI 的角色也随之发生改变。它不再只是提升点击效率的辅助工具,而是开始真正介入并重塑价值创造的核心环节。
当 AI Agent 成为连接用户与服务的核心入口,竞争的焦点也不再是 " 谁占据了用户更多时间 ",而是谁更高效地完成了用户的真实需求——" 流量 " 从 " 时间占有 " 升级为 " 需求满足 "。
事实上,Agent 从 " 工具 " 进化为 " 服务主体 " 已逐渐成为业内共识。微软 CEO 萨提亚 · 纳德拉在微软 Build 2025 开发者大会上提到,AI 不只是协作工具,更是可被信赖的数字同事,能够独立思考、执行任务。
OpenAI CEO 萨姆 · 奥特曼也在 2025 年的访谈中提到,AI 正在经历从 " 推理引擎 " 到 " 个人代理(Personal Agent)" 的跨越。
当用户选择某个 Agent,本质上是在选择一个能代替自己做决策的 " 智能服务商 "。这也对未来的 AI 终端提出了更高要求:它不仅要理解指令,更要理解用户背后的利益边界、风险偏好与决策底线。
因此,无论是 AI 手机,还是未来可能出现的其他 AI 终端,本质上都是 AI Agent 的硬件载体,而非 Agent 本身。其核心演进逻辑,都应遵循 " 人本位 " 原则,即 AI 不应越俎代庖代替人类做决策。
这一判断,也与另一个正在显现的大趋势相呼应—— AI 时代,价值将更加集中地体现为企业可被 Agent 调用和放大的核心能力,比如阿里、京东的电商履约,比如腾讯的社交关系链等等,都被转化为一个明确的 AI 价值符号,最终这些符号进行排列组合,企业之间不断聚合协同,形成更极致的终极 AGI 产品。
近期国家市场监管总局对外卖行业巨头及携程的约谈,释放出一个清晰信号:协同聚合是符合社会价值的,平台 " 通吃 " 单打独斗反而会带来更大的用户和商业风险。
这意味着,未来的 " 终端霸主 ",需在商业变现、生态公平之间找到最优用户需求价值,和最优社会稳定价值的平衡点。
虽道阻且长,但沸腾推动进步,我们或许仍无法准确描绘 AI 时代「iPhone」的最终形态,但可以确信的是——它一定诞生于 Agent 生态真正繁荣、协同而非通吃成为共识的那一刻。