
先讲最直观的。丢给它一段视频,它能吐出带时间戳的结构化笔记:谁说了什么、BGM 第几秒变调、切了几次镜头、有没有敏感内容。不是摘要,是细到帧的 Caption。长视频从此变成可搜索的数据库——以前你得拖着进度条来回找,现在直接问就行。

语音交互的打磨更见细节。咳嗽和随口 " 嗯嗯 " 不会打断它,真正的插话能瞬间接住;你可以指令 " 小声点 "" 开心一点 ",控制音色、语速、情绪。上传一段录音还能克隆专属音色,让 AI 用你的声音说话。这些功能单看都不新鲜,但拼在一起,对话的 " 真人感 " 会上一个台阶。

参数层面,256K 上下文、113 种语言、10 小时音频或 1 小时视频的处理能力,配合 215 项 SOTA 成绩——音频 / 音视频任务全面超过 Gemini-3.1 Pro。阿里百炼已开放 API,Plus、Flash、Light 三档尺寸按需选用。
一个值得玩味的细节:官方演示里提到,模型能判断视频是否有敏感内容。这个能力放在内容审核场景,相当于给平台装了个 " 自动风控员 "。技术文档没展开讲,但懂行的人知道,这才是商业化最稳的落脚点。