关于ZAKER 合作
赛博兰博 1小时前

阿里把 10 小时音频塞进一个模型 ,Gemini 刚赢的局又被翻了

做产品的人有个共识:用户要的不是功能,是 " 不用动脑 "。Qwen3.5-Omni 今晚发布,阿里这次把 " 不用动脑 " 做成了系统级能力。

先讲最直观的。丢给它一段视频,它能吐出带时间戳的结构化笔记:谁说了什么、BGM 第几秒变调、切了几次镜头、有没有敏感内容。不是摘要,是细到帧的 Caption。长视频从此变成可搜索的数据库——以前你得拖着进度条来回找,现在直接问就行。

更意外的是 Vibe Coding。没专门训练,模型自己 " 悟 " 出了根据画面写代码的能力。上传一个 UI 草图,它生成可运行的前端原型;描述一段交互逻辑,它吐出 Python 实现。创意验证从 " 看 " 到 " 做 " 的链路,被压缩成一步。这有点像早年 Photoshop 的 " 内容识别填充 " ——用户没提需求,但用完就回不去了。

语音交互的打磨更见细节。咳嗽和随口 " 嗯嗯 " 不会打断它,真正的插话能瞬间接住;你可以指令 " 小声点 "" 开心一点 ",控制音色、语速、情绪。上传一段录音还能克隆专属音色,让 AI 用你的声音说话。这些功能单看都不新鲜,但拼在一起,对话的 " 真人感 " 会上一个台阶。

工具调用是另一块硬骨头。问 " 明天北京天气,推荐一家酒店 ",它能自主判断要不要联网、调什么工具、怎么组织答案。不是聊天,是办事。原生支持 WebSearch 和复杂 Function Call,意味着模型从 " 能回答 " 进化到 " 能执行 "。

参数层面,256K 上下文、113 种语言、10 小时音频或 1 小时视频的处理能力,配合 215 项 SOTA 成绩——音频 / 音视频任务全面超过 Gemini-3.1 Pro。阿里百炼已开放 API,Plus、Flash、Light 三档尺寸按需选用。

一个值得玩味的细节:官方演示里提到,模型能判断视频是否有敏感内容。这个能力放在内容审核场景,相当于给平台装了个 " 自动风控员 "。技术文档没展开讲,但懂行的人知道,这才是商业化最稳的落脚点。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容