
发售即售罄就不说了,首批工程机在二手平台上普遍加价数百元转卖。相比官方 3499 元的定价,市场需求确实旺盛。
尽管豆包手机助手官方多次强调,目前的技术预览版并不面向普通的消费者。其定位更像是一个技术展示和生态探索的实验田,吸引开发者和技术发烧友参与体验。

不过争议也随之而来,微信、淘宝等一众 App,开始通过「环境异常检测」等门槛把豆包手机助手拦在门外。
官方目前也调整部分 AI 操作手机的能力,官方表示希望「推动形成更清晰、可预期的规则」,避免一刀切否定用户合理使用 AI 的权利。
罗永浩则发文力挺,称这是谁都拦不住的技术革命,将来人们会记住这历史性的一天。荣耀表态欢迎,而魅族厂商则表示期待深入合作,打造更繁荣的生态。

海外网友:第一款真正意义上的智能手机
这评价,可不是随便给的。
雪牛资本(Snow Bull Capital)CEO 泰勒 · 奥根(Taylor Ogan)直接在平台上发了一长串体验报告,兴奋劲儿都快从屏幕里溢出来了。
他的评价很直白:这是全球第一款真正意义上的智能手机。

拿到手机后,他整了不少花活儿。比如随手拍张蔚来换电站问「这是啥」,AI 秒答。





一顿丝滑操作下来,海外网友们大为震惊。

还有网友直接化身「哇塞哥」:
这是下一级别的东西。我在企业级见过类似的东西,Agent 控制你的 PC 并执行任务,但在手机上有这种技术真的很有意思。想象一下,当谷歌开始在 Pixel 设备和几乎所有 Android 手机上这样做时会发生什么 ......

当然,质疑声也有。有人问:「但它真的智能吗?这模型能在设备上本地运行吗 ?」Taylor Ogan 的回应是:「它太智能了。你可以选择在设备端运行或云端运行。」

有网友表示:「只要这些功能是设备本地的(不使用云服务),并且使用是可选的,我就支持这个。」还有网友一针见血地点出了 AI 的真正意义:「这就是 AI 应该做的事情,为个人节省时间,而不是试图消除个人的价值。」

还有网友用豆包手机助手下单买了个椰子,由于没够起送价,豆包贴心地帮博主选了一个 1.99 元的一包食用盐来凑单。

问题来了,这是怎么做到的?这和「phone use」智能体又有什么不同?
在用了一周豆包手机助手后,APPSO 也扒出了背后更多的技术细节。
我扒出了豆包手机助手操作手机的秘密
在豆包手机助手发布之前,手机行业其实已经折腾 AI+ 好一阵子了。
手机硬件厂商试图通过系统层级的 AI 能力,打破应用间的壁垒,实现「一句话办事」。比如华为、小米、vivo、荣耀等主流手机厂商的 AI 智能体,都曾在不同场合展示过自动发送消息、执行多步骤任务等功能。
这些演示虽然在具体场景和实现方式上略有不同,但核心逻辑都是一致的:通过 AI 大模型理解用户意图,并结合模拟用户操作,从而实现跨应用的自动化任务执行。
听着挺玄乎,但实际体验嘛……咳咳,还是有不小的提升空间。

APPSO 在知名预印本平台 ArXiv 发现了一篇由字节团队发布的技术报告,里面的信息或许能解释其中的关键原理。
附上地址:https://arxiv.org/abs/2509.02544

根据 UI-TARS 2.0 技术报告,这个模型的厉害之处在于,它不是简单的模块化拼凑,而是采用了端到端的学习方式,将感知、推理、行动和记忆整合在一起。

Online-Mind2Web 得分 88.2,
<>OSWorld 得分 47.5,WindowsAgentArena 得分 50.6,
AndroidWorld 得分 73.3
这些成绩不仅明显优于前一代模型,还在多个场景中超越了 Claude 和 OpenAI 等强劲基线模型。其中 AndroidWorld 的 73.3 分更是比 OpenAI CUA-o3 模型高出 20 多分,展现出强大的竞争力。

这是什么概念?就是 AI 打游戏已经快接近普通人类玩家水平了。

更厉害的是,UI-TARS-2 不仅能处理 GUI 任务,还能通过 GUI-SDK 扩展能力,与系统级资源(如终端和外部工具)集成。在信息检索任务(BrowseComp 29.6 分)、软件工程任务(Terminal Bench 45.3 分、SWE-Bench Verified 68.7 分)上都有竞争力。
一个模型走天下,这就是通用性的体现。
值得一提的是,通过接近豆包团队的人士透露,豆包手机助手用的 UI-TARS 是私有模型版本,性能比开源版更强,还针对手机场景做了专门优化。这或许也解释了为啥豆包手机助手实际体验这么丝滑。
豆包手机助手,确实有点技能在身上的。
写在最后:科技产品的「异类」可以多一些
作为一个长期关注科技产品的编辑,今年令我十分感慨,在这个恨不得把「万物皆塞入手机」的行业,却出现两个异类,分别在设计与交互的维度上,走向了极致。
一个是 iPhone Air,当 Pro 系列不可避免地走向堆料的终局,这种对轻薄的偏执,在参数党眼中或许别无他用,甚至让人一时分不清这是倒退还是进化,直到你把它握在手里,原来,轻盈本身就是一种功能。


你会发现,当 AI 公司参与到硬件的设计中,他们对交互设计的思路都和传统硬件厂商有所不同。
OpenAI 也正在和前苹果传奇设计师 Jony Ive 打造 AI 硬件,Sam Altman 就曾透露这块设备希望重新定义交互:不需要一堆 app,而是 AI 作为主界面与操作层。
当然,历史告诉我们这类新技术落地必然面临阵痛:适配、隐私、生态……还有各方利益的博弈。先进技术和广泛应用的「双向奔赴」尚需时日,但也是大势所趋。

人机深度协作的时代,那些用户界面(UI)极其复杂(有大量滑块、开关、菜单)、不支持脚本、并且建立在不透明的、自定义的二进制格式上的产品,注定是死路一条(ngmi)。
未来,AI 在理解和操作人类图形界面(UI/UX)方面会越来越强(比如像 Operator 这样的前沿项目),但我怀疑,那些只想坐等这一未来实现,而不主动与当前技术发展水平「双向奔赴」、做出改变的产品,它们的下场不会太好。
敢于吃螃蟹这件事本身,就已经算是值得瑞思拜了,我们也希望看到更多「异类」出现在科技行业。