文|AI 大模型工场,编辑|星奈,作者|冰拿铁
中国 AI 视频模型,又双叒上大分了。
近日,在国际权威 AI 基准测试机构 Artificial Analysis 最新公布的榜单中,一个熟悉的名字杀出重围,直接空降榜眼:Vidu Q3 排名中国第一,全球第二,硬刚马斯克的 xAI Grok,并将 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2 等一众硅谷巨头甩在身后。

回顾最近几个月,AI 视频领域巨头的竞逐重点还是 " 老几样 ",大家无非是围绕画质卷理解力,围绕叙事死磕连贯性,再或者卷分辨率、卷一致性,而时长则一直无法突破 10s。而 Vidu Q3 带着一个更具野心的答案入场了,它没有在旧规则里继续内卷,而是直接掀翻了牌桌:
全球首个支持 16 秒音视频直出的模型,声画同出,一镜到底,不仅仅是 " 给视频自动配音效、配背景音乐、人物对白 " 那么简单,更宣告了 AI 视频从 " 会动的画面 ",正式迈入了能讲完整故事的 " 视听生成 " 新时代。
号称要改变游戏规则的 Q3,到底有多能打?我们第一时间上手,替大家体验了一把 " 一个 prompt,出大片 " 的爽感。
01 告别 " 哑剧 " 和 " 碎片化 ":声画同出,16 秒长叙事
长久以来,AI 视频生成有个很尴尬的问题,就是其无法生产完整作品,只能产出几秒钟的画面,即便再精美,也过于碎片,无法承载对白、讲述情节,几秒钟的碎片化的时长,在真正的叙事需求面前显得捉襟见肘,只能一次次开盒、拼凑,最后,还是后期剪辑同学默默扛下了所有。。。
Vidu Q3 的到来,打破了这一旧枷锁:
4 秒可能只是一个空镜头,8 秒或许只够一个简单的动作展示,但 16 秒,足以容纳一段张力十足的双人对话,它不仅是有声的,更是完整的,让 AI 视频第一次作为一个独立叙事单元存在,一个起承转合,一段戏剧冲突,都能在这 16 秒里发生。
比如,输入 Prompt:" 一个 40 岁的中年男子穿着燕尾服,坐在船舱里弹钢琴,船员逃窜,外面狂风呼啸,巨轮倾斜,只有他在弹琴……随着船体四分五裂,只留下他和钢琴在一块破损的地板上漂浮,四处海浪滔天。"
来看结果,Vidu Q3 在 16 秒内,构建了一个电影级场景,倾斜近 60 度的船舱、倒灌的海水、四处逃窜的船员,弹琴的男子,形成了极具冲击力的对比。
更绝的是,钢琴声、海浪的咆哮声、船体撕裂的响声……所有声音元素与画面进展严丝合缝地同步生成,符合物理规律,没有出戏的感觉,而是一个从诞生之初就声画一体的完整片段。

再来一个,输入 Prompt:" 皮克斯风格 3D 动画,一只戴着眼镜的小熊在图书馆里踮脚拿书,书堆突然倒塌,熊挠头说:‘ Oops … 看来今天不适合学习。’背景有轻柔的钢琴音效。"

再来个剧情向的:输入 Prompt:
提示词:A cinematic dialogue scene with a middle-aged Western couple standing face to face.A man and a woman in their late 40s to early 50s, European or American features,realistic skin texture, subtle wrinkles, emotionally restrained acting.They stand in a quiet indoor space, soft window light from the side,muted and desaturated color palette, shallow depth of field,35mm lens, cinematic film grain, natural camera height.The mood is tense, intimate, and filled with long-standing disappointment.The woman looks directly at the man, voice calm but hurt, and says:I told you the life I wanted … but you always ignore me.A brief silence follows.The man avoids eye contact at first, then looks back at her,his voice low, defensive yet tired, and replies:I didn ’ t ignore you. I just thought what I was giving was enough.Minimal movement, subtle breathing and micro facial expressions,no dramatic gestures, realistic pacing.

再来看两个基于经典影视角色的图生视频 case。
输入 prompt:Eleven 站立不动,冷静的说:I saw what i did,I am a monster.

而对于广告、短剧、短视频、游戏剧情动画乃至电影前期预览,变革也是颠覆性的。过去,一个脚本创意要用动画预览甚至粗糙的实拍来验证,但声音和表演是缺失的,现在,任何创作者都能在几分钟内,获得一个在表演、声音上都接近成品质量的 " 高保真动态视频 "!
02 让创作者实现运镜自由、解决鬼画符等 " 历史难题 "
如果说 " 声画同出 " 解决了 " 有什么 " 的问题,那么 Vidu Q3 的多镜头自由切换能力,则是在回答 " 怎么讲 " 这个更高级的命题。
传统 AI 视频最让人头疼的就是镜头不受控,想要个深情特写,它可能给你个匪夷所思的大仰拍。但 Q3 让你真正拿回了 " 导演权 "。它不仅能理解 " 特写 "、" 中景 "、" 全景 " 这些指令,更能根据剧情自动切换镜头,用视觉语言来讲故事。
我们尝试了一个非常细腻的皮克斯风格亲子场景。
prompt:
分镜一(中景 / 侧面视角):温暖明亮的背景中,传来衣物摩擦的沙沙声,右侧成年人缓缓蹲下,与左侧小男孩平视。他温和地说:"I know you're disappointed, buddy. I really am sorry." 手势略微比划,镜头侧拍捕捉着两人之间微妙的距离感。
分镜二(大人视角 / 小男孩特写):镜头转到成年人身后,对准小男孩的脸。他眼神低垂,嘴角微微下撇,肩膀无力地耸着。背景音乐渐弱,只听见他一声极轻的、压抑的吸鼻子声。镜头缓缓推近,背景柔化,将失望与无奈的情绪张力拉满。

而当我们祭出一个包含七个分镜的日漫风高手对决剧本时,Vidu Q3 彻底封神了。
分镜一:全景,平视,固定镜头;分镜二、分镜三:特写,分镜四:中景俯拍,分镜五,分镜六,特写……
分镜七:全景,咒术师踉跄扶住鸟居支柱,黑雾从伤口逸散如烟,铃铛终于响起微弱 "チリン",他咳血低笑:" 面白い…また会おう… "。夕阳沉入山脊,最后一片银杏叶覆盖符纸残骸。

我不说,估计你不会觉得是 AI 生成的,而是以为是哪个经典番里的片段!
再来看这个多分镜图 +Q3 图生的例子:
prompt:由慢到快,画面依次为 4 个镜头,不要出现镜头拼接
1. [ 近景 ] 情侣两人在街角的咖啡店闲谈
2. [ 慢动作全景 ] 情侣两人漫步在欧洲小镇,背景为夕阳洒落,光晕自然
3. [ 中景 ] 情侣两人相拥在海边,背景为大海星辰
4. [ 中景 ] 情侣两人坐在家中的沙发一起看书,周围是温暖的炉火,画面温馨自然

再来一个:
输入 prompt:A realistic live-action baseball stadium scene during an afternoon game.A father and his son sit in the stands, wearing casual clothes, holding snacks.Shot 1 ( Establishing wide shot, 3s ) : The baseball field, crowdcheering, scoreboard in the distance.Shot 2 ( Medium shot, 5s ) : Father leans closer to his son.Dialogue:Father: Which team do you think will win today?Shot 3 ( Close-up on son, 4s ) : The son watches the field seriously.Son: I think the new team they just brought in will surprise everyone.Shot 4 ( Cut back to two-shot, 3s ) : The father smiles and nods.Natural daylight, handheld camera feel, authentic crowd atmosphere.

一个顶级模型的实力,往往还体现在那些最容易露怯的细节上。Vidu Q3 在文字渲染上的表现,终于治好了 AI 视频的 " 鬼画符 " 晚期症状。
我们让霓虹灯管风格的英文字母 FUTURE 逐一亮起,闪烁蓝紫色光芒,背景有电子合成音效和科技感环境音:


更有趣的是,Vidu Q3 在语言上的 " 魔法 ",目前其支持中,英,日多国语言,且超越了实验室里的音素对齐,进入了理解文化与生活方式的深层维度。
我们尝试了一个日语指令:
深沉的男声,语速缓慢清晰,用日语说:映画は世界に温もりを与え、観客に光影が交錯する中で他人の人生に共感させます。
输出音视频:
如上,男子说日文时,符合日语清晰的音节节奏。语言所承载的文化表情、语言节奏和表演风格,在此实现了整体匹配,难怪 Vidu Q3 敢和马斯克掰手腕,在未来,其有望让创意得以在全球范围内,以更 " 原生 " 的姿态快速复制和引爆。
03 AI 视频,开启商业化大门
纵观 Vidu Q3 的这次 " 低调突袭 ",可以说,精准地戳中了内容产业的核心痒点:对高质量、低成本、快节奏叙事能力的极度渴望。
如果说,AI 视频生成的上半场,大家比拼的是从无到有,是让静态画面动起来、连贯起来的 " 基本功 ",那么 Vidu Q3 的发布,则响亮地宣告了下半场的开赛,核心命题是从有到优,即能否综合运用视听语言讲好一个完整故事、传递一种复杂情绪,这种 " 导演力 " 正是 AI 视频开启商业化大门的金钥匙。
毕竟,在商业世界,高级感就是生命线。
如今,Vidu Q3 正将 AI 视频从 " 技术炫技 " 的范畴,拉进 " 主流生产力工具 " 的战场。来看几个广告例子:
一段都市风视觉大片,镜头调度富有电影质感,节奏与转场流畅。Vidu Q3 显然让广告营销的敏捷度和创意实现的自由度迈上了新台阶。

我们期待 Vidu 再接再厉,下一次更新时,带来的 32S 的大片!