关于ZAKER 合作
钛媒体 12小时前

视频生成模型大盘点:谁能定义下一代内容?

文 | 新眸,作者 | 简瑜

过去两个月,不少人被一段 " 动物跳水 " 短视频刷了屏——在标准跳水台上,大象、小猪、柯基轮番登场,以高难度的动作跳入水中,甚至耳边还会伴随有专业的赛事解说和人群欢呼,从动作编排到入水细节,视频的逼真程度堪比电影特效。

不仅是 " 动物跳水 ",诸如动物拟人化情景演绎、切割不同材质物品的解压视频等一类 AI 生成视频,早已开始席卷抖音、小红书、B 站等各大内容平台。

而这样的视效水平,过去只存在于制作精良的影视作品中。

在这些视频背后,不仅形成了围绕 " 脚本制作——关键帧创作——视频生成 " 的一连串工作流,甚至还催生出一批靠 AI 视频创作变现的 " 数字导演 "。

事实上,早在 2022 年,市面上就开始出现了一系列 AI 生成视频,但当时的视频画面,往往存在失真、怪异、观感差等各种问题,只在小范围内有所传播。

转折点出现在 2024 年。OpenAI 在二月发布 Sora,以 DiT(Diffusion + Transformer)架构为核心,突破了视频生成在时长、清晰度、逻辑一致性等方面的瓶颈,让 "AI 生成视频 " 第一次真正具备了走向大众市场的可能。

之后越来越多的厂商开始借鉴 DiT 或其他混合模型架构的模式,陆续发布对标 Sora 的闭源模型产品,如 24 年 6 月推出的 Runway Gen-3、Luma Dream Machine;7 月底全面上线的快手可灵等。

时间来到下半年,视频生成类模型更是呈现了井喷式的增长。阿里、字节等巨头纷纷押注,智谱、MiniMax 等创业公司也快速跟进。曾经因技术瓶颈被质疑的 AI 视频,俨然已经成为了 AI 模型商业化最拥挤的赛道之一。

大小厂 " 诸侯混战 " 各自的牌面有多大?

与已经经历三年演进和淘洗的大语言模型不同,无论是性能表现还是市场格局,AI 视频生成模型仍处在 " 诸侯割据 " 的早期阶段。

自 2024 年起迎来密集爆发后,这一赛道在模型能力、用户心智乃至具体落地场景上,都尚未形成类似 ChatGPT、Claude、Gemini 等在 LLM 领域的头部垄断格局。

目前,视频生成模型虽尚未建立统一的评测体系,但 " 时序一致性 "" 帧画质 "" 提示词遵循度 "" 生成稳定性 " 等,往往成为通用测评关键词。而从多个测评榜单的变化趋势来看,各个模型之间仍存在较为明显的排名波动,领先优势尚未固化。

以今年 4 月和 7 月的 AGI-Eval(由多所国内顶尖高校和研究机构联合发布)榜单为例,仅仅三个月时间,前十排名便发生大幅洗牌,能维持榜上位置的仅剩 Pika 1.5、MiniMax 的 Video-01、爱诗科技的 PixVerse V4。而其他原本上榜的模型,或被自家迭代版本替代,或已被后来者赶超。

值得一提的是,榜单上除了有阿里、字节等互联网大厂,minimax、爱诗科技等创业公司也赫然在列,且国内厂商的出现率明显略高于国外厂商。

图片来源:AGI-Eval 官网

另一方面,由于模型生成路径的不同,文生视频(Text-to-Video)与图生视频(Image-to-Video)在测评维度上也存在较大差异。据国际测评机构 Artificial Analysis 今年 7 月的榜单,仅有一半模型能同时跻身两类前十,也进一步说明当前的模型能力仍处于尚未定型的快速演进期。

图片来源:Artificial Analysis 官网(截止 2025.8.6)

当下,有不少声音认为大语言模型已进入 " 技术平台期 "。GPT-5 迟迟未能发布、Claude 4 经历长达 11 个月的版本跨度、DeepSeek 新产品迟迟未现……相较之下,在视频生成模型中,模型迭代仍处于初期向成熟过度的爆发地段,大厂与创业公司都在以 2 至 4 个月的频率推陈出新。

以快手可灵为例,从 2023 年 6 月上线至今,平均不到两个月就推出了一次新功能;2025 年上半年更是完成了从 1.6 到 2.1 之间的两次模型大版本迭代。Minimax 旗下的海螺,自从去年 8 月上线以后,也在三个月内实现了三次迭代,并于今年 6 月再次推出新模型海螺 02。

尽管整体格局尚未完全明朗,但就国内厂商而言,近半年以来,快手、字节、MiniMax、爱诗科技等在各类评测中的排名基本都能维持在前 10 之列,位列第一梯队。

这一趋势同样体现在用户侧的使用排名中。据 POE 榜单显示,快手可灵、MiniMax 海螺长期市场份额位于前列。而字节即梦由于新版本上线时间较晚(2025 年 6 月),在 5 月榜单中尚未露面。

图片来源:Poe,《报告:2025 年春季人工智能模型使用趋势》

AI 视频生成的爆发式崛起:内容土壤、成本革命与平台竞速

某种程度上说,AI 视频生成之所以能在近一年时间里迎来井喷式增长,是一种 " 天时地利人和 " 的结果。

除了 Sora 带来的技术瓶颈突破,视频内容的持续扩张,构成了 AI 视频落地最坚实的 " 土壤 "。据 QuestMobile 数据,截至 2024 年 9 月,中国移动视频行业的月活用户已达 11.36 亿,增速明显,视频内容正成为流量的核心载体。

更关键的是,AI 大幅降低了视频制作的人力成本、时间成本与技术门槛。无论是实拍视频中所涉及的导演、演员、场地、后期等复杂流程,还是动画视频所需的渲染、建模、特效等高技能工序,AI 视频都能在几秒钟内 " 一键生成 "。

典型的例子,一部由迪士尼、皮克斯出品的顶级动画电影,其每分钟制作成本高达 200 万美元,而 AI 模型生成的相似画面,目前已可将单位成本压缩至每分钟 300 美元左右。

尽管现阶段的视频生成模型在效果稳定性、剧情连贯性上仍有明显短板,通常只能输出几秒至几分钟的片段,但这却恰好匹配了短视频、短剧等轻内容场景的要求。

短视频不仅在时长要求上需求更低,用户注意力碎片化,也使得内容形式本身具备了更高容错率。AI 工具也就自然而然成为了短视频剪辑师、MCN 机构乃至普通创作者的增效神器。

为了快速占领创作者市场,不同于语言大模型从闭源走向开源的策略路径,视频生成厂商则选择反其道而行之,从开源起步,给予用户一定的免费使用权限,在拉新沉淀用户习惯后,在通过订阅制实现商业变现。

例如,快手可灵、字节即梦、腾讯混元均通过赠送积分、免费次数等方式引导 C 端订阅。百度绘想则在 2025 年 7 月初推出时开放了免费试用;而通义万相则以模型源码的形式上传至 GitHub 的方式进行开源分发。

背靠内容平台的分发资源和用户流量,字节、快手等内容大厂在国内 C 端用户占据上更具优势,已开始构建起 " 模型生成—内容创作—平台分发 " 的闭环生态,将 AI 能力直接注入短视频作者链条中,实现用户对视频模型的自然渗透。

相比之下,诸多创业公司如爱诗科技 PixVerse、MiniMax 海螺等,则将目标用户对准了海外市场。

以爱诗科技为例,此前有公开数据表示,PixVerse 总用户已经达到了 6000 万以上,月活用户超 1600 万,而这一数据公开时爱诗还尚未发布国内产品,并且单就用户量来看,PixVerse 已经成为了全球用户量最大的 AI 视频生成产品。

从模型性能来看,国内创业公司在多项榜单中表现优于海外竞争者。但在国内市场缺乏天然流量入口和品牌优势的背景下,出海成为了他们绕过强平台、寻找蓝海的最优解。

除此之外,生数科技 Vidu 则选择将目标放在了 B 端市场,于今年四月和飞书、百度搜索达成了合作。而在此之前,也分别与 AR,VR 等设备厂商、影视动漫网站等开展了合作。

模版还是工具?AI 视频生成走向分岔路

通过在社交软件上的相关评论可以发现,同样面向短视频创作,快手和抖音呈现出了不同的内容优势,可灵在国风、二次元方面占优势,而即梦善于写实、艺术领域的内容生成。

两者之所以选择出各自的垂类赛道,一定程度上迎合了各自平台的内容特色。以真实生活记录为内容导向的快手,在模版选择上更加接地气,而以娱乐化、潮流化为趋势的抖音,则在风格化能力上更为突出。

但无论是可灵还是即梦,当 AI 视频生成模型服务于短视频创作时,模版特效和提示词设计的效果和稳定性,成了 AI 视频生成类教程里逃不开的关键词。

换句话说," 选得快、改得少、出片稳 " 才是决定工具使用频率的核心变量。

事实上,爱诗科技 PixVerse 之所以能够在海外获得如此高的用户量,一定程度上也得益于其模板化的视频生成思路,通过提供众多 5s 左右的 " 模版特效 ",简化创作者的生成路径,类似的功能,在海螺、可灵中也有相似。

模版特效的优势在于能够极大降低创作者的制作门槛,做出符合平均水平的视频效果。但与此同时,它的副作用也同样明显:确实能跑量,但无法拉长生命周期。一旦用户审美疲劳,内容热度转瞬即逝,ROI 表现也难以持续。

而这恰恰是 AI 视频在内容平台中面临的结构性困境——效率很高,但很难留下 " 经典 "。

从这个角度来看,AI 视频依然要去探索长时间、高质量视频的模型生成模式。

作为 2018 年就开始推出第一个视频生成模型的老大哥,Runway 走在了更前面,根据官方数据显示,尽管过去一年,Runway 的官网访问量不足可灵的二分之一,但 ARR 却几乎达到了可灵的六倍。

Runway 的商业逻辑,与短视频模式走向了截然相反的路径,通过与电影公司等高附加值产业合作,生产较为高品质的影视内容作品。

区别在于,Runway 将视频生成更多定位为 " 创意效率工具 ",而非低门槛生产工具。它的核心功能主要有中间帧控制、AI 角色的表情与动作复刻、视频扩展等,在实现效率的同时,核心的创意输出依然由人类自身所掌控。

当市面上开始涌现出越来越多的 AI 产品,留给行业和时代的问题,更需要从对 AI 效率转化性能的评价,转向厘清 AI 工具的使用边界,让真正的增量内容从中生长出来。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容