关于ZAKER 合作
雷科技 48分钟前

史诗级进化!OpenAI 深夜上线 Mac 版“超级龙虾”

雷科技 AI 硬件组 | 编辑:TSkinght | 监制:罗超

又是羡慕 Mac 用户的一天。

今天凌晨,OpenAI 正式发布适用于 macOS 的新版 Codex,并附文:

Codex for ( almost ) everything.

It can now use apps on your Mac, connect to more of your tools, create images, learn from previous actions, remember how you like to work, and take on ongoing and repeatable tasks.

Codex ( 几乎 ) 无所不能。

它现在可以调度 Mac 上的应用程序,连接更多生产力工具,并具备图像生成能力。此外,Codex 能够通过历史行为进行学习,记忆您的工作偏好,并自主承接持续性及重复性的任务。

一言蔽之:Mac 版的 " 原生龙虾 " 上线了。

自 2 月中旬将 OpenClaw(龙虾)的创始人招揽进公司后,OpenAI 在后续的两个月里就一直在捣鼓把 OpenClaw 的能力融入 Codex 中,如今终于看到了成效,而且一上线就是 " 王炸 "。

图源:X

接下来就让雷科技(ID:leitech)带大家看看,最新的 Mac 版 Codex 都能做什么。

从开发者到维护者,

Codex 已实现全自动化

OpenAI 公布的 Codex 演示视频,首先展示了 Codex 在 Mac 环境下的自主开发、自主 debug 的能力。

用户向 Codex 下达指令:测试一个 " 井字棋 " 应用并修复所有的 Bug。在接收到指令后,Codex 自主打开 Mac 上的本地 Xcode 工程,并且依次点击井字棋项目的网格,最终定位到程序代码的位置并执行启动指令。

图源:雷科技

从这里就能看出来,Codex 并非通过后端的 API 直接调用测试代码,而是真正通过图形界面(GUI)像普通用户一样去 " 使用 " 这个应用。两者的区别在于:前者只是代表其解决了指令理解和代码执行问题,本质上依赖于应用本身的开放 API;后者则无需调用应用的 API,即可通过图形识别来完成任务。

这意味着,Codex 具有真正意义上的 " 通用执行能力 ",因为很多第三方应用压根就不会给你开放 API。对于以前的 AI 来说,这些应用就是一个 " 黑盒 ",它知道对方的存在,却不能操作也不能读取。

而且,这里也展示了 OpenAI 强大的多模态视觉识别与坐标映射能力。Codex 能够 " 看懂 " 模拟器上的 UI 元素,并决定鼠标应该点击屏幕上的哪个像素坐标来完成下棋动作。

接下来 Codex 自动进入测试,然后直接识别到了 Bug:" 人类走一步,电脑对手会走两步 "。这是整个演示中最让人惊艳的地方,因为 Codex 没有参考任何的错误文档,而是完全通过视觉观察和游戏规则的逻辑推理,判断出了应用在行为表现上的 Bug。

某种程度上,这说明 Codex 已经具备一定的自主决策和 " 拟人 " 推理能力,在确定问题后,它开始着手修复井字棋程序,然后重新编译运行程序并确认 Bug 已经修复。而在另一个视频里,Codex 还利用代码辅助插件,在没有明确文件路径提示的情况下,自主探索本地的前端项目,并且给出了改动范围最小的代码修改方案。

可以说,OpenAI 通过简单的两个案例,直观展示了 Codex 从前端到后端的完整工作流程能力。而且这一切都是通过对图形界面的视觉识别完成的,说明其已经具备几乎涵盖所有开发环境的全流程闭环开发能力。

说实话,这真的有点可怕了。如果说以前用 Codex 开发应用,你还要懂一点编程知识去解决 API 接入等问题,那么现在可以直接跳过这些流程,让 Codex 像 " 真人 " 一样操作电脑并生成你想要的程序。

不只是 " 生产者 ",更是 " 协作者 "

另一视频则展示了 Codex 在多模态层面的执行能力。在这个视频中,用户要求 Codex 为网页的主视觉区生成一张图片,这个要求里甚至没有具体的图片风格提示词。

那么 Codex 是怎么做的呢?它没有直接生成一张不相关的图片,而是首先读取了本地项目文件,然后结合图形界面读取的信息,确定了网页的主题基调是 " 费城深夜快餐 ",并以此为基准生成了一张 " 汉堡 + 薯条 + 深夜灯光 " 的图片。

而且 Codex 还进一步分析了 " 主视觉区 " 的排版需求。为了不遮挡左侧的文案文字,生成的图片需要在左侧留出足够的空余,并且视觉重心要偏向右侧。仅这一项就是以前的 AI 难以做到的,因为大多数辅助开发工具都还在 " 纯文本代码生成 " 阶段,不仅无法理解网页中的 " 视觉元素 ",甚至连图片生成和路径引入都要用户手动指定。

图源:OpenAI

而在确定图片符合要求后,Codex 自动执行指令将生成的图片移动到本地的项目文件夹中,并着手修改 HTML 文件,用真实的图片标签及本地路径替换了原有的占位符;同时顺手微调了 CSS 样式,确保图片能够完美适配网页的大小,最后还刷新了内置浏览器的网页,展示最终的网页效果。

OpenAI 还展示了 Codex 是如何完全自主搭建一个网页的。在接收到用户的 " 乐高追踪网页应用 " 开发需求后,Codex 调用开发软件完成代码编写,并自动在本地启动了开发服务器,在 Codex 自带的浏览器面板上加载了页面。

随后,用户可以将自己的任意需求直接告诉 Codex,它会根据图形识别等获取的数据,调整网页的对应元素。比如在视频中,用户只是在对应编辑框给出了 " 缩小字体 " 的需求,Codex 就自动完成了字体缩小、重新排版等一系列步骤,真正做到了 " 所见即所得 "。

对于网页开发者来说,Codex 的身份其实已经发生了转变。以前大家更多将其视作 debug 和网页框架搭建的 " 代码生产者 ",最终的整合还是需要人类插手。

现在,它已经变成了你的 " 协作者 ",你可以将更多的工作交给它。即使这涉及到具体的视觉元素修改和 UI 微调——以前 AI 可能难以准确理解你的意图,现在却不同了,因为它也能 " 看 " 到网页。

专属私人助理上线

在最后两个视频的演示里,OpenAI 则是打算让 Codex 变成你的 " 私人助理 "。视频中用户仅用一句话,就让 Codex 同时检索了 Slack、Gmail、Google Calendar 和 Notion 等四个截然不同的 SaaS 平台。

接着,Codex 基于其语义理解能力,自主分析各平台的通知与信息,并根据优先级进行排序,将信息分类为 " 急需处理 " 和 " 可以暂缓 ";同时根据信息的具体内容,提醒用户某些信息虽然看起来只是日常汇报,但是涉及到需要审批的事项,需要额外留意。

在总结并分类完信息后,用户又下达了新的指令 " 持续留意并通知我 "。Codex 直接建立了一个名为 "Teammate - Hourly" 的后台任务,并且自动设定该后台任务的具体运行规则:每小时检查一次各个 SaaS 平台,仅在有实质性信息增加(或无法获取最新信息)时提醒用户。

这个功能实际上也是之前 OpenClaw 爆火的原因——全自动的挂机 " 员工 "。只需要下达指令,Codex 就会在后台持续监控和执行相关任务,并不需要用户去主动操作,从而将 AI 从 " 被动响应 " 变成了 " 主动协助 "。

而且,Codex 现在的自动化操作可以在同一线程中运行,只需要打开对应聊天框,就能让 AI 重复或继续执行之前的任务,并不需要你重新给它安排一遍工作。所以,别看视频演示简单就不当回事,实际上只要给的指令足够详细,Codex 也能像 OpenClaw 那样执行复杂的自动化工作流程。

视频演示中还展示了 Codex 在监控到新的邮件后,直接给出了邮件内容的概括,并询问用户是否需要帮忙草拟回复,这也是其根据用户的不同任务要求自行推理和设定的。

而在最后一个视频中,Codex 则是根据用户的要求,通过插件访问企业的内部知识库并找到对应的产品报告,然后生成了一份面向高管的简报。在整个过程中,用户都只是给出了产品的名称,以及需要 Codex 做的事情,并没有提及产品报告保存在什么地方、如何查找。

全自动寻址、快速检索大量不同的文档和图片、提炼关键信息并生成文档。用户仅需一句话,Codex 就自主分拆和执行了多个步骤;而且它并不需要企业给出私有 API 接口,仅通过用户已有的权限去调用文档,最大程度地降低了企业的数据外泄等风险。

当然,Codex 如今也拥有了直接创建对应文档的能力。在视频中,Codex 直接将网页端 GitHub 项目的最近 Issue 按主题整理出电子表格,然后转成 Excel 表格文件输出。结合此前提到的能力,实际上你可以将其当做一个高效的 " 数据收集员 ",从私有库到公有数据,都可以让 Codex 收集并汇总成对应的文档,然后在其他工作中直接调用。

目前,Codex 已经集成了九十多个主流办公及开发插件,用户可以在聊天框中随意调用,这还能说啥呢,干就完事了。

为什么是 Mac?

说实话,OpenAI 的最新版 Codex 要比 OpenClaw 更适合大多数用户。因为其并不需要用户提供系统底层权限,以让渡安全性和隐私性来换取便利性,而是借助 macOS 完善的辅助功能 API 和底层沙箱控制,实现稳定且安全的运行。这是目前 Windows 端做不到的(权限管理复杂且 API 混乱)。

而且,Codex 明显针对 Apple 的官方开发工具做了深度整合。不仅可以直接读取 Xcode 的项目结构,还能直接搞定 Swift 软件包依赖以及模拟器状态等设置,同时自动调用 Apple 官方的开发文档和 API 规范,进行实时纠错(这对于苹果开发者来说至关重要)。

另外还有个非常关键的因素—— Apple 生态。很多人在讨论 AI Agent 的时候,都会忽略硬件生态的影响。试想一下,如果你在 Windows 上让 AI 执行一个任务时,忘记打开远程桌面程序,那么基本上就得走到电脑前进行操作; Mac 与 iPhone、iPad 的协同生态,让用户可以在移动设备上轻松查看 Codex 的工作成果,并且轻松下达新的指令。

图源:苹果

当你安排 Codex 在家里干活,自己跑出去快活时,原生的远程管理功能体验无疑比第三方工具更好(不过 Apple Remote Desktop 是真的贵)。

总而言之,Mac 版 Codex 的发布,基本上标志着这个 AI 工具正式跨越了 " 被动助手 " 的阶段,开始成为直接接管系统桌面的 " 全能智能体(Agent)"。

它不再是一个需要你绞尽脑汁去解决 API 接口和各种使用问题的工具,而是一个能看懂屏幕、能自主操作不同软件、甚至能替你统筹安排跨平台工作的 " 赛博同事 "(突然想到,Codex 能帮我通关赛博朋克 2077 吗?)。

反正现在压力给到 macOS 的老对手微软了,Windows 到底什么时候能上线同样的功能?Copilot 折腾了一两年都还是那个样子,属实对不起微软砸的这么多资源。

End

欢迎扫码添加小雷微信

记得备注想进群的手机品牌哦

跟小雷一起畅聊数码与 AI 科技

另外小雷建了很多粉丝群,欢迎扫码加入!

大家伙一块聊聊天,分享玩机技巧~

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容