关于ZAKER Skills 合作
智东西 8小时前

6 小时手搓手机 Agentic 操作系统,拿下 OpenAI 语音黑客松冠军

AI 应用风向标(公众号:ZhidxcomAI)

编译|毕伟豪

编辑|漠影

智东西 6 月 2 日消息,OpenAI 语音黑客之夜(OpenAI Voice Hack Night)在今天公布了最终获胜者,一个语音优先的手机 Agentic 操作系统拿下了冠军。

开发者所提供的演示手机原型中,没有 APP,一片漆黑,只有一个像星环一样小图标在手机中央,等待着用户下达指令。

开发者独自上台,举着部普通智能手机,对着它说话:

" 帮我找下周旧金山飞慕尼黑的航班。"" 我今天有什么安排?"" 取消凌晨一点半的会,去不了。"

手机几乎立刻反应,一个发光的蓝色球体界面弹出航班卡片、日历视图、天气简报等需要的页面。他说取消会议,会议消失,他改问飞里约的航班,新选项立刻出现,全程不用点屏幕,没打开过任何 App。

这是 Isa Usmanov 在 6 个小时内和 Codex 一起创造的,和现有的智能手机语音控制功能不同,Isa Usmanov 对手机操作系统进行了彻底的重新设计。

他抛开了所有既定的应用,让 AI 去根据用户的语音提示,进行推理、行动,生成实时的交互页面,其基础任务由跑在手机上的本地模型实时生成,重型任务则是调用 ChatGPT 来处理。

市面上能语音控制的手机太多了,调个闹钟查个天气没问题,但骨子里还是你说话,它识别关键词,替你在 App 里点按钮,底层逻辑是 App,语音只是遥控器。

Isa Usmanov 直接扔掉了 App 这套东西,用户不需要知道航班在哪查、日历怎么调、新闻从哪抓,只需要说出意图,AI 理解意图,然后现场生成用户需要的界面。

工具链很简单,这个项目完全是由 Codex 构建的,OpenAI 最新的实时语音模型提供了交互能力的支持。

这里有意思是,开发这件事已经悄然发生了变化,以前你得纠结航班搜索 API 怎么调、数据怎么格式化、界面怎么布局,现在你只需要告诉 AI" 我要查航班 ",剩下它包了。

这个原型很容易让人想起斯派克 · 琼斯 2013 年的电影《她》,男主角和 AI 操作系统萨曼莎建立关系,萨曼莎不光回答问题,还预测需求、管任务、用近乎人性的方式互动。

OpenAI 首席执行官 Sam Altman 曾多次表示《她》是自己最喜欢的 AI 电影,并经常引用其来展望人类最终如何与 AI 交互。

OpenAI 一直在做语音方向的尝试,不论是 ChatGPT 的高级语音模式,还是 GPT-Realtime-2 等语音模型,亦或者是前段时间被曝出的 AI 智能体手机事件,都表明 Isa Usmanov 的这个原型,和 OpenAI 的愿景不谋而合。

当然它还是个原型,航班数据靠 API 并不稳定,动态界面在复杂场景没有测试,在开发者的演示过程中还出现了一些 Bug,比如反应缓慢、指令接收不清楚、执行不到位等。

但这个项目表明,大部分技术基础已经存在,随着实时语音模型的不断改进,语音原生、智能体驱动的操作系统或许将不再是电影中的情节,而是行业发展的合理下一步。

来源:eyerys、Cerebral Valley、OpenAI Developers

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容