
编译|毕伟豪
编辑|漠影
智东西 6 月 2 日消息,OpenAI 语音黑客之夜(OpenAI Voice Hack Night)在今天公布了最终获胜者,一个语音优先的手机 Agentic 操作系统拿下了冠军。

开发者独自上台,举着部普通智能手机,对着它说话:
" 帮我找下周旧金山飞慕尼黑的航班。"" 我今天有什么安排?"" 取消凌晨一点半的会,去不了。"
手机几乎立刻反应,一个发光的蓝色球体界面弹出航班卡片、日历视图、天气简报等需要的页面。他说取消会议,会议消失,他改问飞里约的航班,新选项立刻出现,全程不用点屏幕,没打开过任何 App。
这是 Isa Usmanov 在 6 个小时内和 Codex 一起创造的,和现有的智能手机语音控制功能不同,Isa Usmanov 对手机操作系统进行了彻底的重新设计。
他抛开了所有既定的应用,让 AI 去根据用户的语音提示,进行推理、行动,生成实时的交互页面,其基础任务由跑在手机上的本地模型实时生成,重型任务则是调用 ChatGPT 来处理。
市面上能语音控制的手机太多了,调个闹钟查个天气没问题,但骨子里还是你说话,它识别关键词,替你在 App 里点按钮,底层逻辑是 App,语音只是遥控器。
Isa Usmanov 直接扔掉了 App 这套东西,用户不需要知道航班在哪查、日历怎么调、新闻从哪抓,只需要说出意图,AI 理解意图,然后现场生成用户需要的界面。
工具链很简单,这个项目完全是由 Codex 构建的,OpenAI 最新的实时语音模型提供了交互能力的支持。
这里有意思是,开发这件事已经悄然发生了变化,以前你得纠结航班搜索 API 怎么调、数据怎么格式化、界面怎么布局,现在你只需要告诉 AI" 我要查航班 ",剩下它包了。
这个原型很容易让人想起斯派克 · 琼斯 2013 年的电影《她》,男主角和 AI 操作系统萨曼莎建立关系,萨曼莎不光回答问题,还预测需求、管任务、用近乎人性的方式互动。
OpenAI 首席执行官 Sam Altman 曾多次表示《她》是自己最喜欢的 AI 电影,并经常引用其来展望人类最终如何与 AI 交互。

当然它还是个原型,航班数据靠 API 并不稳定,动态界面在复杂场景没有测试,在开发者的演示过程中还出现了一些 Bug,比如反应缓慢、指令接收不清楚、执行不到位等。
但这个项目表明,大部分技术基础已经存在,随着实时语音模型的不断改进,语音原生、智能体驱动的操作系统或许将不再是电影中的情节,而是行业发展的合理下一步。
来源:eyerys、Cerebral Valley、OpenAI Developers