关于ZAKER 合作
钛媒体 1小时前

不吹不黑,海外创作者实测 Seedance2.0:这些功能秒杀 Sora,那些短板却让人头疼

文 | 极客电影 Geekmovie

遥遥领先不假,但不够完美也是真的。

目前全世界最好的 AI 视频大模型是哪家?

不吹不黑,即便是在海外,很多人的答案也在近期迅速改成了Seedance 2.0

两周前,曾获奥斯卡最佳动画短片提名的爱尔兰电影人卢埃里 · 罗宾森仅用了两行提示词,就让 Seedance 2.0 生成了那段在互联网上疯狂传播的" 汤姆 · 克鲁斯大战布拉德 · 皮特 "AI 视频,效果之逼真让整个好莱坞神经紧绷、如临大敌。

《死侍与金刚狼》的编剧雷特 · 瑞斯看过这段视频后,在社交媒体上发出悲观的感叹:

我不想这么说,但我们(电影人)恐怕真的要完蛋了。

Seedance 2.0 生成的 AI 视频让好莱坞著名编剧大喊:我们要完蛋了

因为功能着实强大,Seedance 2.0 最近在全球互联网掀起了一股 AI 创作的热潮,短期内大量电影级的 AI 视频横空出世。

作为观看者,每个人都在感叹 AI 技术的迭代速度实在惊人;而作为 Seedance 2.0 的使用者,他们是如何评价这款产品的,更值得我们关注

如果说当初 Sora 的出现,让世界看到了 AI" 无中生有 " 的魔力,那么 Seedance 2.0 则将讨论的焦点,从" 能生成什么 "拉回到了" 如何精确地生成我想要的 "

Seedance 2.0 通过一个强大的多维参考系统,将模糊的创意转化为 AI 可执行的精确指令。而且在角色一致性、原生音画同步、自动镜头切换等方面取得了惊人的进步。

当然,除了分析 Seedance 2.0 优点、特点,使用者们也不可避免地谈到了它的短板,而这些需要改进的 " 短板 " 可能就是未来 AI 视频大模型的发展方向

AI 的进化之路还远远看不到终点,甚至有没有终点都要打个问号。

而每次有 Seedance 2.0 这样惊人的产品问世,我们的紧迫感恐怕都要增加好几分。学习,真的永无止境。

01 告别随机生成,精准拿捏你的创作思路:Seedance 2.0 的可控性优势明显

Seedance 2.0 的核心竞争力,并非单一技术的点状突破,而是一套以 " 导演意图 " 为中心、协同工作的架构设计。创作者终于有机会从 " 祈祷 AI 能听懂 " 的被动角色,转变为手握控制台的导演。

具体来说,Seedance 2.0 的过人之处,首先体现在其统一的多模态音视频联合生成架构。

与传统模型单一的 " 文本到视频 " 路径不同,Seedance 2.0 能同时理解并融合文字图片视频音频四种模态的输入。这意味着,你可以用文字描述故事,用图片定义角色和风格,用视频指定运镜,用音频驱动节奏和口型。

Seedance 2.0 能同时理解并融合文字、图片、视频、音频四种模态的输入

这个架构的核心是 " 导演模式 ",它通过一个强大的多维参考系统,将模糊的创意转化为 AI 可执行的精确指令

例如,Seedance 2.0 允许用户同时上传多达 9 张图片、3 段视频和 3 段音频,构建一个丰富的 " 素材库 "。

更妙的是,它引入了一种类似编程中 "@" 符号的引用系统,通过在提示词中使用 @Image1、@Video1 等标签,创作者可以精确地将指令与特定素材绑定。

例如," 让 @Image1 中的角色跳 @Video1 中的舞蹈 ",这种结构化的指令远比冗长的自然语言描述更高效、更无歧义。

更进一步,创作者可以调整每个参考素材的 " 影响权重 "。例如,你可以将角色图片的权重调高以确保面部高度保真,同时将运动参考视频的权重调低,允许 AI 在遵循大体动作的同时进行更平滑的创意发挥。

Seedance 2.0 在指令遵循、运动质量、画面美感、音频表现等各个维度都处于行业领先地位

稳定同步智能——在 Seedance 2.0 强大的多模态音视频联合生成架构之下,几项关键技术也得以突破,共同解决了 AI 视频创作中的核心痛点。

镜头随意切,角色模样服饰都不变

以往模型在镜头切换后,角色 " 换脸 " 或服装细节改变的问题屡见不鲜。Seedance 2.0 通过允许用户上传角色的多角度参考图(如正面、侧面、四分之三脸),在模型内部构建了一个更稳定的 3D 几何表征。

这使得角色在进行转身、光影变化等动态过程时,其核心面部特征和服饰细节得以保持高度一致,为生成多镜头序列提供了坚实的技术保障。

音画精准匹配,甚至能凭照片还原人声

音画不同步是 AI 视频的另一大顽疾。Seedance 2.0 利用其底层的 Seed 2.0 大模型,通过一种被称为 " 双分支扩散变换器 " 的架构,实现了原生视频与音频(包括对白、音效、环境声)在同一生成过程中的精确同步。

其最令人惊叹的一点是,模型甚至可以仅凭一张静态的面部照片,重建出高度模仿该人物音色和语气的语音。虽然该功能因潜在伦理和法律风险被紧急暂停,但它展示了模型在理解生物特征与声音关联方面的惊人深度。

同时,音频波形可以直接驱动角色面部动画,实现高度逼真的口型匹配,让数字角色的表演不再 " 貌合神离 "。

自动镜头切换,小白也能做出电影感

Seedance 2.0 内置了一个" 叙事规划器 ",它能像导演一样思考。当你给出一个故事梗概,它能自动将其分解为专业的镜头序列(如远景 - 中景 - 特写),并在切换过程中保持角色和风格的统一。

即使是不懂分镜的普通用户,也能生成具有电影感的蒙太奇片段,极大地降低了视频叙事的门槛。

02 光鲜之下的技术瓶颈Seedance 2.0 仍有很大提升空间

尽管 Seedance 2.0 在可控性上迈出了一大步,但从技术层面审视,它距离完美的 " 世界模拟器 " 仍有显著差距。与 Sora 2 和 Google Veo 3.1 等竞品相比,Seedance 2.0 也并非在所有方面都遥遥领先。

复杂物理效果,模拟画面仍欠真实

当前的 AI 视频模型,其对物理世界的理解仍停留在 " 模式匹配 " 而非 " 第一性原理 " 的层面。这导致在处理复杂或不常见的物理交互时,模型会暴露出短板

例如,虽然 Seedance 2.0 生成的简单的水花飞溅效果尚可,但对于更复杂的液体流动、布料在高速运动下的褶皱与拉伸、毛发的精细飘动等,它的模拟结果仍显生硬,缺乏真实感。

在处理多个物体碰撞、堆叠或精细操作时,Seedance 2.0 偶尔会出现穿模、悬浮或不自然的加速等 "AI 怪癖 ",它对物体间的空间关系和力学传递的理解仍有很大提升空间。

长视频创作,细节易漂移、内容难连贯

虽然 Seedance 2.0 在单次生成的十几秒内保持了较好的连贯性,但将时间尺度拉长,问题便开始浮现。目前所有视频模型都面临着 " 记忆衰减 " 的挑战

在一个长达数分钟的叙事视频中,如何确保角色行为的前后动机一致、场景中的物体状态保持连续,这对模型的长时程记忆能力提出了极高要求。目前,这类视频仍需依赖人工剪辑和分段生成来保证效果。

另外,在一些用户生成的视频中可以观察到,即使是 Seedance 2.0,在视频后半段也可能出现细微的 " 纹理漂移 " 或 " 闪烁 " 现象,尤其是在精细的图案、文字或背景元素上。

上文提到的 AI 短片《Apex》中,车辆碰撞的角度和车窗碎裂的方式显然对不上,车上的文字也疑似乱码

写实内容生成,真实感不及竞品

对比Sora 2Veo 3.1两大竞品,Seedance 2.0 在多个维度上展现出差异化优势,同时也暴露出一些劣势。

Sora 和 Veo 追求的是 " 模拟一个真实的世界 ",而 Seedance 2.0 追求的是 " 构建一个可控的片场 "。对于需要快速产出、对真实感要求极高的短内容,Veo 3.1 的原生音画同步可能是更优选。但对于需要精细控制角色表演、镜头语言和艺术风格的专业创作者,Seedance 2.0 提供的 " 导演模式 " 无疑更具吸引力。

当脱离参考、仅凭文本生成纯写实内容时,Seedance 2.0 生成的人物真实感和光影细节的精细度有时会不及两家竞品。这可能源于双方在模型架构和训练数据侧重上的不同设计哲学。

03 " 世界模型 " 是终极进化方向?VR 普及后,AI 模型必将进军 3D 场景

通过分析 Seedance 2.0 所展现出的优势与不足,我们已经可以在一定程度上勾勒出 AI 视频模型下一阶段的演进蓝图。未来的竞争,或将不再仅仅是生成更清晰、更逼真的画面,而是构建一个更懂物理、更懂叙事的" 世界模型 "

在 AI 领域," 世界模型 " 是一个经常被提及的概念。

简单来说,世界模型 = 让 AI 在脑子里 " 模拟整个世界 "。它不是简单的 " 看图、生成视频 ",而是让 AI 学会世界有什么物体、物体之间怎么互动、物理规则是什么、事情会怎么发展,然后在内部构建一个虚拟的、可推理的世界。

" 世界模型 " 可能是 AI 视频大模型的终极进化方向

下一代视频模型的核心突破,将是其 " 世界模型 " 的深度和广度。这要求模型具备更强的因果推理能力,实现基于统一物理逻辑的全局一致性。

例如,当提示词描述 " 一阵风吹过 ",模型不仅应生成树叶摇摆的画面,更应能推理出这阵风会如何影响远处的旗帜、人物的头发以及水面的波纹。这种基于统一物理逻辑的全局一致性,将是实现 AI 视频真正沉浸感的关键。

就像游戏引擎一样,先构建一个虚拟世界,然后在这个世界中 " 运行 " 一个事件,并用虚拟摄像机 " 拍摄 " 下来。在这个范式下,所有的物理交互、光影变化、角色行为都将是自洽且符合逻辑的。

而且,随着Apple Vision Pro等空间计算设备的普及,未来的 AI 视频模型,其输出或将不再局限于一个平面的 " 画框 ",而可能是一个完整的、可供用户进入和探索的 3D 场景

随着空间计算设备的普及,未来的 AI 视频模型很可能进行 3D 场景的探索

创作者或许可以直接在 3D 空间中布置虚拟摄像机,规划其运动轨迹,而 AI 则负责实时渲染出该视角下的视频流。Seedance 2.0 的 " 导演模式 " 可以看作是这一方向的早期雏形。

总而言之,Seedance 2.0 的出现,是一个重要的行业风向标——在 AI 频的下半场,单纯的生成能力不再是唯一的王牌," 可控性 " 和 " 可预测性 " 将成为衡量一个模型是否具备工业化潜力的核心标准。

对于创作者而言,技术正从一个难以驾驭的 " 创意伙伴 ",转变为一个真正得心应手的 " 创作工具 ",好的创意只会获得更大的发挥空间。

相关标签
ai

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容