文 | 字母 AI
自从 OpenAI 发布 GPT-5.4 以后,我的朋友圈和订阅的公众号就被它占领了。
所有人都在讨论同一个词,叫做原生电脑操控能力(Native Computer Use)。铺天盖地的标题写着 "AI 终于能接管你的电脑了 ""GPT-5.4 操控桌面超越人类水平 ",评论区也都清一色地在喊 " 为时已晚,有机体!"
说实话,看到这些宣传的时候,我的第一反应不是兴奋,而是怀疑。因为 "AI 操控电脑 " 这个概念并不新鲜,今年 1 月 OpenClaw 爆火的时候,大家就已经见识过了。
而且过去两年,每隔几个月就有人喊一次 "agent 时代来了 ",结果每次实际体验都差点意思。所以这次 GPT-5.4 的 " 原生电脑操控 ",到底是真的质变,还是又一轮营销话术?
我决定自己动手试试。
花了大半天进行测试,我的结论是:它确实迈出了很大一步,但也确实没有宣传里说的那么神。
有些场景让我真心震撼,有些场景又让我哭笑不得。
以及可以肯定的是,ChatGPT-5.4 它远不止内置了一个 OpenClaw 那么简单。
ChatGPT 终于学会 " 动手 " 了
GPT-5.4 是 OpenAI 第一个内置电脑操控能力的主线模型。
这里得先解释一下 " 原生电脑操控能力 "(Native Computer Use)。
这个概念听起来很唬人,但其实核心逻辑并不复杂。
以前的 ChatGPT,本质上都是一个 " 嘴强王者 "。你问它怎么在 Excel 里做个数据透视表,它能给你写出详细到令人发指的教程,但它自己动不了手。你得自己一步步照着做。
而原生电脑操控能力,说人话就是 AI 不只是会聊天了,它会像人一样直接用电脑干活。它能看到当前屏幕上有什么,理解哪个是浏览器、哪个是按钮、哪个是输入框,然后自己去点击、输入、切换窗口、滚动页面、提交表单。发现做错了,它还能回退或者换一种操作方式。
举个例子,我让 Codex 给我在文件里生成一个 TXT,然后写一句话 " 你好 世界 ",那么 Codex 就真的新建一个 TXT,然后在里面写字。
你可能会问,这和写个自动化脚本有什么区别?
区别大了。传统的自动化脚本需要提前把每一步流程写死,网页结构一变、按钮位置一挪,脚本就废了。但原生电脑操控能力更像是一个人在操作,它能看到屏幕上的内容,根据当前的实际情况判断下一步该干什么,具备随机应变的能力。
[ Desktop 2026.03.06 - 10.54.48.02.mp4 ]
我们可以用微信来举例子,因为微信从产品设计、底层架构到安全体系,从根源上就没有给第三方 agent 留任何合规的技术通道。
而且微信的 API 是外部系统与微信服务端合规交互的唯一官方通道,而截至目前,微信开放平台完全没有对外开放个人微信账号的私聊、群聊消息发送相关的 API 接口。
但 ChatGPT-5.4 实现了。

ChatGPT-5.4 不仅完成任务,还主动提出要求,帮我把这段话改得更自然。
它现在不仅能看懂屏幕上的元素,还能实现完整的键盘鼠标模拟。
当时我的内心是无比震惊的,因为哪怕是 OpenClaw,想要征服微信都要费很大力气,ChatGPT-5.4 竟然这么轻易就能实现了。
于是我例行测试了一下 ChatGPT-5.4 对浏览器的控制,我本以为这是个简单活儿,毕竟我的浏览器就是 Chrome,而 OpenAI 自己的 AI 浏览器用的也是 Chrome 内核。
结果却给我气笑了。
我让 Codex 打开 douyin.com,可 ChatGPT-5.4 给我打开的是 " 抖音。com"


OpenAI 给了 ChatGPT 两种 " 动手 " 的方式。第一种叫代码模式,AI 会用 Python 写 Playwright 脚本来操控浏览器和应用程序,点哪里、输入什么、怎么导航,全部通过代码精确执行。
第二种叫截图模式。AI 直接 " 看 " 你的屏幕截图,然后像人一样发出鼠标和键盘指令,不需要任何代码作为中间层。
OpenAI 还专门做了一个叫 "Playwright Interactive" 的实验性功能,让 AI 可以一边写代码一边实时测试,甚至能在构建网页应用的同时自己打开浏览器去调试。

一句话变成一个可运行的游戏,这个演示确实唬人。
不只是接管电脑
有一个叫做 OSWorld-Verified 的测试,是专门衡量 AI 通过截图加键盘鼠标自主操控桌面能力的基准测试,在这项测试中 GPT-5.4 拿到了 75.0% 的成功率。
上一代 GPT-5.2 只有 47.3%,而人类基准线是 72.4%。
也就是说,GPT-5.4 在 " 看着屏幕操作电脑 " 这件事上,已经超过了普通人的平均水平。
在 WebArena-Verified 上,GPT-5.4 也拿到了 67.3% 的成功率;在 Online-Mind2Web 上,仅靠截图观察就达到了 92.8%。
这些数字的意义在于。如今的 ChatGPT 在操控电脑这方面,已经不再是实验室里的玩具,它是真的能用了。
其实不难看出,OpenClaw 对 ChatGPT-5.4 的加持很大。
2026 年 2 月 14 日,斯坦伯格正式宣布加入 OpenAI。奥特曼同步在 X 平台官宣,称其将负责 " 推动下一代个人 agent 的研发 "。
同时明确 OpenClaw 项目将移交至独立开源基金会运营,OpenAI 承诺为项目提供持续的资源、资金与技术支持。
于是 ChatGPT-5.4 就带着浓烈的 OpenClaw 味登场了。
OpenClaw 有一个大问题,贵。由于软件本身会将上下文一并发送至大模型,这就导致在一些场景下,它的 token 消耗会非常恐怖。
所以 OpenAI 引入了一个叫 "Compaction" 的机制,上下文压缩。简单来说,当 AI 在执行一个很长的多步骤任务时,它会自动总结和修剪中间过程的历史记录,只保留关键信息。
这样既能维持长任务的连贯性,又不会把 token 预算一下子烧光。这是 GPT-5.4 作为第一个主线模型被训练支持的能力,之前只有专门的 Codex 编码模型才有类似的功能。

更关键的是,你可以在它推理的过程中随时打断、调整方向,不用从头再来。这个功能听起来不起眼,但用过就知道,以前让 AI 做一个复杂任务,如果方向跑偏了,你只能重新发一条消息从零开始。
现在你可以中途喊停说 " 不对,换个思路 ",它能接着往下走。
在专业知识工作的 GDPval 基准上,GPT-5.4 拿到了 83.0%,而 GPT-5.2 是 70.9%,提升了 12 个百分点。在 BrowseComp(衡量 AI 持续浏览网页查找难以定位的信息的能力)上,GPT-5.4 Pro 版本达到了 89.3%,刷新了纪录。
Mercor 的 APEX-Agents 基准测试也显示,GPT-5.4 在制作幻灯片、金融建模、法律分析这类长周期专业任务上表现突出。
另外还有一个面向开发者的重要更新,那就是 Tool Search。
以前调用 API 时,所有可用工具的定义都要一股脑塞进上下文里,光这些定义就能吃掉几万个 token。现在 GPT-5.4 只加载一个轻量级的工具列表,需要用哪个再去查具体定义。在 Scale 的 MCP Atlas 基准测试中,这种方式在 36 个 MCP 服务器的场景下,token 消耗直接降低了 47%,准确率不变。
最后,OpenAI 还推出了 ChatGPT 直接嵌入 Microsoft Excel 和谷歌 Sheets 的集成功能。GPT-5.4 可以读取单元格范围、执行多步分析、自动写公式。
这对企业用户来说是个大杀器,AI 不再是你和表格之间的 " 传话筒 ",它直接坐进了你的表格里干活。
但我也有一些担忧。OpenClaw 之所以魔幻,不仅仅是因为 AI 能做事,更是因为 AI 做的事经常超出人类预期,当这种能力被内置到一个拥有数亿用户的产品里,我总觉得心里毛毛的。
Codex 现在可以设置,让 ChatGPT-5.4 拥有完全访问你电脑的权限,从而做到真正的原生控制。

OpenAI 在 GPT-5.4 的安全评估中提到,Thinking 版本的欺骗行为概率更低," 说明模型缺乏隐藏其推理过程的能力,思维链监控仍然是有效的安全工具 "。
这话听着让人安心,但也侧面说明了一个事实,他们确实在担心 AI 会 " 隐藏推理过程 " 这件事。
不管怎样,GPT-5.4 的发布标志着一个新阶段的开始。AI 不再只是对话框里那个能说会道的助手,它正在学会伸出手来,触碰你的屏幕、你的文件、你的工作流。
那只龙虾现在已经游进了 OpenAI 的池塘里,而它掀起的浪,才刚刚开始。