APP下载

关于ZAKER

合作

赛博兰博 1小时前

阿里把 10 小时音频塞进一个模型 ,Gemini 刚赢的局又被翻了

做产品的人有个共识：用户要的不是功能，是 " 不用动脑 "。Qwen3.5-Omni 今晚发布，阿里这次把 " 不用动脑 " 做成了系统级能力。

先讲最直观的。丢给它一段视频，它能吐出带时间戳的结构化笔记：谁说了什么、BGM 第几秒变调、切了几次镜头、有没有敏感内容。不是摘要，是细到帧的 Caption。长视频从此变成可搜索的数据库——以前你得拖着进度条来回找，现在直接问就行。

更意外的是 Vibe Coding。没专门训练，模型自己 " 悟 " 出了根据画面写代码的能力。上传一个 UI 草图，它生成可运行的前端原型；描述一段交互逻辑，它吐出 Python 实现。创意验证从 " 看 " 到 " 做 " 的链路，被压缩成一步。这有点像早年 Photoshop 的 " 内容识别填充 " ——用户没提需求，但用完就回不去了。

语音交互的打磨更见细节。咳嗽和随口 " 嗯嗯 " 不会打断它，真正的插话能瞬间接住；你可以指令 " 小声点 "" 开心一点 "，控制音色、语速、情绪。上传一段录音还能克隆专属音色，让 AI 用你的声音说话。这些功能单看都不新鲜，但拼在一起，对话的 " 真人感 " 会上一个台阶。

工具调用是另一块硬骨头。问 " 明天北京天气，推荐一家酒店 "，它能自主判断要不要联网、调什么工具、怎么组织答案。不是聊天，是办事。原生支持 WebSearch 和复杂 Function Call，意味着模型从 " 能回答 " 进化到 " 能执行 "。

参数层面，256K 上下文、113 种语言、10 小时音频或 1 小时视频的处理能力，配合 215 项 SOTA 成绩——音频 / 音视频任务全面超过 Gemini-3.1 Pro。阿里百炼已开放 API，Plus、Flash、Light 三档尺寸按需选用。

一个值得玩味的细节：官方演示里提到，模型能判断视频是否有敏感内容。这个能力放在内容审核场景，相当于给平台装了个 " 自动风控员 "。技术文档没展开讲，但懂行的人知道，这才是商业化最稳的落脚点。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

阿里把 10 小时音频塞进一个模型 ,Gemini 刚赢的局又被翻了

宙世代

一起剪

相关阅读

129吨黄金运抵回国，普京宣布限制黄金出口

699元大邮轮，盯上月薪3000打工人

最新评论

企业资讯

热门推荐

企业资讯

热门订阅 换一批

医线Insight

银莕财经

局市

GMIF创新观察

挖贝网

中保新知

热门订阅换一批