说起去年最让人惊喜的手机。
机哥自己心目中,有个可能跟大家都不太一样的答案。
它,就是豆包手机。

而是因为,它是个正儿八经的「AI 终端」。
机哥当时冲了首发用过几天,我发现它在大多数日常任务上,已经能代替人来操作了。
帮我斗个地主。


这些任务都能被豆包理解,并在后台自动执行。

很多琐碎日常的需求,都能一句话交给豆包手机来解决。
只是问题在于。
豆包手机作为 " 实验性产品 ",量产机型有限,再加上价格不算低。
专门买个这玩意来尝鲜,成本多少有点高。

在去年 12 月,智谱就开源了 Open-AutoGLM 框架。
用人话来说呢,这技术能利用多模态大模型,真正看懂手机屏幕,并实现对手机的自动化操控。
你说具体需求,然后它直接在后台办事。

所有安卓手机,都可以是豆包手机了
而得益于该技术的免费开源。
在座的各位机友,都能通过简单的配置,把自己手里的安卓手机变成「豆包手机」。
机哥这就带大伙探探路。
这里机哥用于完成自动任务的 App 是「Ruto」。

这软件已经实现了真 · 后台全自动执行任务、熄屏运行,以及主副屏互不干扰等特性。
不过考虑到要展示流程,机哥还是先用主屏来折腾。

" 打开米家 App,并帮我关掉智能插座 3"。
这需要大模型读得懂需求,也看得懂屏幕内容,才能完成整套任务。

只见我给 Ruto 下达任务后,它便自动操作起来手机。
PS:文中所有 GIF 均有加速,不代表 Open-AutoGLM 最终执行速度。
它打开米家 App 后,顺利找到了「米家智能插座 3」。
经过短暂思考,最终按下了关闭按钮。

能看到它是先识别屏幕内容,然后自主规划下一步。

这开源免费的 Phone Agent,能不能帮我过一下多邻国打卡?

它很快打开了多邻国 App,并且进入「重温课程」执行起来。
好消息是,很多不复杂的题目,它都能理解并点击正确回答。
坏消息是,响应速度有点慢。
这里是机哥放了三倍速,实际的思考和执行时间,有个 15 秒钟。

App 本身支持虚拟屏幕,让任务在后台自动运行。
所以咱们完全可以在前台聊聊微信、刷刷抖音。
不知不觉中,Ruto 可能就把任务给完成了。

机哥也专门测了斗地主和下象棋等小游戏,发现它并不能像豆包手机那样托管游玩。

像游戏这种需要理解和执行很快的场景。
对于一个开源 Phone Agent 来说,要求还是略高了点。
但如果只是把它当做一个,能随时处理日常任务的助手。
诶,那我觉得还是相当好用的。
比如我让它在京东找到小米手环 10,并且加入购物车,没问题。



这些有着明确操作路径的任务。
基于 Open-AutoGLM 大模型的 Ruto,都能给你安排得明明白白。
要是大伙觉得单任务执行起来,效率不高。
还可以创建多个虚拟屏幕和任务对话,多任务并发执行的同时,做到真后台、不打扰。

现在有了能开箱即用的 Phone Agent,让它干啥都行。
什么叫人工智能啊?什么叫 AI 造福人类啊?
这特么就是。

豆包手机也好,机哥今天所体验的智谱 Phone Agent 也罢。
实际上都面临着一个大问题——安全性。
由于现阶段 Phone Agent 在技术原理上,需要读取屏幕内容,才能模拟真人去操作手机。
很多 App 认为这样的操作太敏感,也容易泄露用户信息。
在豆包手机刚出来没多久,就对它的应用操作能力,做了风控限制。

但「创建虚拟屏幕并后台自动执行」这功能,基本废了一半。
机哥实测,很多主流 App 只要识别到你不在前台运行,就会触发 " 敏感隐私保护 "。
App 这时候压根就看不到屏幕内容。
更别说进一步执行指令了。

厂商们,自然是百般不乐意的。
所以目前的情况是。
机哥用 Ruto,搭配智谱的 AutoGlm-Phone 大模型,能做到前台自动执行任务、操作 App。
买个车票、收个能量、点杯咖啡都没问题。
但已经无法像豆包手机刚面世那样,让手机全自动干活。

机哥都希望这种「AI 即服务」的技术,能早日落地到更多手机上。
毕它不光是能让普通用户受益。
许多无障碍用户,也能因此真正解放双手,实现用嘴操控手机 App。