
作者 | 杨京丽
编辑 | 李水青
智东西 4 月 17 日报道,4 月 15 日,字节 Seed 团队发布 Seedance 2.0 技术论文,《Seedance 2.0:推动视频生成应对复杂世界》(Seedance 2.0: Advancing Video Generation for World Complexity),论文系统展示了这款多模态视频生成模型的核心能力与评测结果。

今年 2 月初,Seedance 2.0 发布并上线,目前已接入豆包、即梦 AI 和火山引擎,模型 ID 为
doubao-seedance-2-0-260128。此外,字节还提供了加速版 Seedance 2.0 Fast,面向低延迟场景。
相比前代 Seedance 1.0 和 1.5 Pro,Seedance 2.0 最大的变化是从 " 生成短视频片段 " 走向了 " 支持多种控制信号的可控视频合成 ",它采用统一的、大规模的多模态音视频联合生成架构,原生支持文本、图像、音频、视频四种输入模态。在开放平台上,它最多可同时接收 3 段视频 +9 张图 +3 段音频作为参考,直接输出 4 – 15 秒、480p 或 720p 分辨率的音视频内容。
Seedance 2.0 生成视频
从字节公布的评测结果看,对比 Kling 2.6、Kling 3.0、Sora 2 Pro、Veo 3.1、Seedance 1.5 等模型,Seedance 2.0 在文生视频(T2V)、图生视频(I2V)、参考生视频(R2V)三大任务的所有维度上均取得第一;在 Arena.AI 评测平台上,Seedance 2.0 曾登顶 T2V 和 I2V 双榜,目前 T2V 榜首已被 HappyHorse-1.0 反超,Seedance 2.0 以微弱差距位列第二。
值得注意的是,这是一篇侧重 " 能力评测与产品落地 " 的技术论文,并未深入披露模型架构与训练细节。
论文的评测结果主要基于字节自建评测集 SeedVideoBench 2.0。该框架是 SeedVideoBench 1.5 的升级版,新增了多模态任务评估体系(覆盖参考、编辑、扩展、组合四大任务组)和叙事质量评价体系(含镜头语言、情节设计、风格美学三个子维度),采用客观 + 主观双轨评分。
论文链接:
https://arxiv.org/abs/2604.14148
Seedance 2.0 官网:
https://seed.bytedance.com/seedance2_0
一、遵循真实世界规律,高保真音视频生成
作为一款原生多模态音视频生成模型,Seedance 2.0 在视频与音频生成的所有关键子维度上都带来了实质性、全面的能力提升,并在专家评估和公众用户测试中,展现出与行业领先水平相当的表现。字节在论文中介绍了 Seedance 2.0 的四大核心能力:
1、真实世界复杂性生成。Seedance 2.0 在人体运动建模的自然度、时序连贯性与物理合理性方面大幅提升,能生成时序精确的复杂交互场景,严格遵循真实世界运动规律,缓解此前常见的生成伪影。特写镜头下,光线折射、人物与环境互动等细节接近实拍素材;多主体交互与复杂运动场景的可用率明显高于近期商用模型。
2、强多模态能力。模型可准确解析多模态输入,在画面构图、镜头设计、运动节奏、声学特征等维度严格遵循指令,并支持直接引用文本分镜脚本。即便面对大量角色交互和精细动作描述的复杂脚本,也能维持主体身份一致性;同时具备基础的导演与摄影推理能力,可自主规划分镜序列和视觉呈现模板。2.0 版本还新增了视频编辑与续写功能,支持对指定片段、角色、动作或情节做定向修改,或对已有素材做无缝延展。
3、高保真音视频生成。搭载升级版音频生成模块,集成双耳音频技术,可同时输出背景音、环境音效、角色配音等多轨道内容,对细微自然环境音也能忠实还原,并与画面节奏精准对齐,为专业级音视频内容创作提供支撑。
4、生产力场景应用。在商业广告、影视特效、游戏动画、解说视频等多类用例下展现强跨场景适应性。字节认为,以 AI 生成替代传统视觉特效与实拍工作流,可显著降低专业音视频内容的制作成本、缩短制作周期,帮助创作者与企业落地创意。
从 Seedance 1.5 到 Seedance 2.0,生成框架由音视频同步生成转变为统一多模态音视频联合生成,字节 Seed 团队称,Seedance 系列始终围绕统一架构构建,核心目标是高保真重建真实世界的复杂性。
二、文生视频:运动质量断层领先,物理建模明显改善
在文生视频(T2V)任务上,字节团队将 Seedance 2.0 与 Kling 2.6、Kling 3.0、Sora 2 Pro、Veo 3.1、Seedance 1.5 五款同期模型进行了系统对比,评测覆盖运动质量、视频指令遵循、美学、音频质量、音画同步、音频指令遵循六个维度。
从整体得分看,Seedance 2.0 在全部 6 个维度上均排名第一,是唯一在所有维度上得分均超过 3.4 分(5 分制) 的模型,平均比 Seedance 1.5 提升 0.86 分,其中运动质量维度提升最大,提高 1.36 分;运动质量与音画同步两项均达 3.75 分,领先第二名至少 0.65 分。

运动质量是 Seedance 2.0 相比 1.5 版本提升最大的单项。在 30 个细分类别中,Seedance 2.0 在 29 项上排名第一(仅群体协同运动与 Kling 3.0 并列),得分区间 3.29-4.43,其中多实体特征匹配(4.43)、构图(4.25)、剪辑节奏(4.21) 三项均超过 4.0。
更值得关注的是,Seedance 2.0 在物理建模上明显改善:Seedance 1.5 此前在物理反馈(1.69)、自然现象(2.00)、激烈运动(2.00)等维度上得分偏低,2.0 版本均提升超过 1.5 分。

美学是竞品差距最小的维度。Seedance 2.0 在 30 个细分类别中的 28 项上排名第一(包括并列第一),整体得分区间 2.79 – 4.14。得分最高的维度为视觉风格(4.14)、长脚本(4.14)、构图(4.13)。
从竞品看,Kling 3.0 在 13 个美学类别上得分超过 3.5,最强项为超现实运动(3.86)、同类型交互(3.79)与构图(3.75);Sora 2 Pro 与 Veo 3.1 在假日、消费特效等类别上明显偏弱(均跌至 2.5 分以下)。

音频质量也是 Seedance 2.0 的优势之一。在 17 个细分类别中全部排名第一,得分区间 2.82 – 4.17。其中英语(4.17)、语音 + 动作交互(4.00)、少数民族语言(3.82)、环境 / 背景音(3.78) 为最强项。
相比 Seedance 1.5,提升最显著的三项分别是中文戏曲(2.50 → 3.75)、英语(3.00 → 4.17)、演唱 / 说唱(2.71 → 3.71)。
从竞品侧看,除 Sora 2 Pro 的演唱 / 说唱(3.67)外,没有任何竞品在任何单一类别上得分超过 3.2 分。Kling 3.0 在演唱 / 说唱和环境 / 背景音上较前代 Kling 2.6 出现回退。整体来看,竞品普遍存在音频浑浊、噪声明显、层次感弱的问题,尤其在复杂音效与人声清晰度上短板突出。

三、图生视频:音频领先较大,图像保持竞争激烈
在图生视频(I2V)任务上,字节将 Seedance 2.0 与 Wan 2.6、Kling 2.6、Veo 3.1、Kling 3.0、Seedance 1.5 Pro 五款同期模型对比,评测覆盖视频侧运动质量、视频指令遵循、图像保持和音频侧音频质量、音画同步、音频指令遵循六个维度。

Seedance 2.0 在全部 6 维度均排名第一,得分区间 3.31 – 3.70,没有任何竞品超过 3.18 分;其中图像保持各个视频模型竞争较为激烈,Kling 3.0 仅落后 0.13 分,运动质量则拉开 0.55 分差距。音频依旧是竞品的集体短板,Kling 2.6(2.21)、Wan 2.6(2.18 – 2.55)三项均低于 3.0 分,排名第二的 Seedance 1.5 Pro 也落后 0.54 – 0.60 分。

可用率与满意率上,Seedance 2.0 是唯一在全部 6 个维度可用率均超过 87% 的模型:运动质量满意率 43.88%,约为次席 Kling 3.0(12.00%)的 3 倍以上;视频指令遵循满意率 47.48% vs Veo 3.1 的 20.54%。音频差距更悬殊——音频质量满意率 57.08%,而 Kling 2.6、Wan 2.6 的可用率甚至不足 28%,意味着大多数竞品音频输出直接不可用;音频指令遵循满意率 63.52%,分别是 Seedance 1.5 Pro(37.77%)的 1.7 倍、Kling 2.6(5.70%)的 10 倍以上。
除打分外,字节团队还观察到 Seedance 2.0 在格斗、舞蹈等场景能混合慢动作高光与快速动作,人物表情眼神更生动;运镜多变,新增第一 / 第三人称游戏视角与手持呼吸感;在毛毡、油画、工笔等特殊画风下保持视觉连贯;中英文对白承载情感层次,四川话、东北话、粤语等方言还原准确;语音、音效与背景音多轨配合自然。
四、参考生视频:综合实力强,多模态任务支持范围广
在参考生视频(R2V)任务上,字节将 Seedance 2.0 与 Vidu Q2 Pro、Kling O1、Kling 3.0 三款模型对比,评测覆盖多模态任务遵循、编辑一致性、参考对齐、运动质量、提示遵循五个维度。

Seedance 2.0 在全部 5 个维度上均排名第一:多模态任务遵循 2.50、提示遵循 2.52(均为 1 – 3 分制),编辑一致性 3.54、参考对齐 3.03、运动质量 3.24(均为 1 – 5 分制)。差距最大的是运动质量(领先竞品 0.86 – 0.94 分)和参考对齐(领先 0.66 – 1.24 分),最小的是编辑一致性(Kling 3.0 仅落后 0.17 分)。

更值得关注的是多模态任务支持的广度对比。Seedance 2.0 支持 22 项输入模态任务中的 20 项,覆盖范围为评测中最广;相比之下 Kling 3 Omni 支持 9 项、Vidu Q2 Pro 支持 13 项、Kling O1 仅支持 10 项。其中视觉特效 / 创意参考(3 种变体)和续写 / 扩展(4 种变体)合计 7 类任务完全只有 Seedance 2.0 能处理,这是 Seedance 2.0 在 R2V 任务层面最显著的差异化优势。
不过,Seedance 2.0 并非没有短板。在视频扩展(Extension)任务上,Veo 3.1 以 2.78 的任务遵循得分(88.89% 的 3 分率)明显领先 Seedance 2.0 的 1.93(31.82%),参考对齐也是 Veo 3.1 的 3.44 高于 3.28,论文直言这是 Seedance 2.0 在 R2V 中最弱的单项。字节解释,Seedance 2.0 可接受任意上传视频进行扩展,而 Veo 3.1 只能扩展自己生成的视频,输入范围更广的代价是质量稳定性下降。
五、结语:视频生成更加精细,贴合真实物理世界
从论文来看,Seedance 2.0 在视频生成与音频生成两大板块都展现出相当强的综合实力,这也是字节在生成式媒体技术上长期积累的集中体现。
不过,还需注意这篇论文有其时效性边界,论文引用的评测数据截止于 2026 年 4 月上旬,并未纳入此后涌现的新竞争者——近期登顶榜单的 HappyHorse-1.0。字节团队也承认,Seedance 2.0 仍存在轻微形变伪影、边缘场景运动合理性、高频视觉噪声、音频失真与多人口型同步误差等问题。
放在更大的视角,视频生成赛道对于新老玩家的要求正愈发严格,对于精确控制、音画同步、贴近真实物理世界的要求越来越高。不得不说新模型加入的速度,比论文发表的速度快多了。