关于ZAKER 合作
财经故事荟v 1小时前

AI 视频三国杀 : 阿里逼宫 , 字节开放

" 快乐马 " 后发赶超,阿里截胡快手字节。

4 月 14 日,字节跳动旗下火山引擎正式上线 Seedance2.0 系列 API 服务,企业和个人用户都可调用其视频生成能力。

早期,上述服务需要高额预付、动辄千万级 " 最低消耗 "。

算力足够的情况下,API 大面积开放几乎算是大模型商业化的主引擎。但有意思的是,近期被不少用户诟病排队时间长、变相涨价背刺用户的 Seedance2.0,怎么突然就全面开放 API 了呢?

这背后,或许有上周爆火的 HappyHorse 的推动。

4 月 7 日,HappyHorse 以匿名身份空降权威 AI 平台 Video Arena 盲测榜单上。在图生视频 ( 无音频 ) 榜单上,它拿到 1411 分登顶,把 Seedance 2.0 甩出约 55 分;在文生视频 ( 无音频 ) 一栏,1379 分同样排在字节跳动 Seedance 2.0、快手可灵 AI 3.0、昆仑万维 SkyReels V4 等公开产品前。

三天之后,阿里官方出面认领了这匹 " 千里马 "。

今年 3 月 34 日, OpenAI 宣布关停 Sora,所有人都以为,Seedance 2.0 要在 AI 视频生成模型领域一统天下,阿里却出其不意,截胡字节 Seedance 与快手可灵。

AI 视频生成模型这一赛道,三国杀格局雏形初显,而且中国公司在全球拿下了主导权。

OpenAI 退场,中国大厂上位

2024 年以来,AI 视频生成模型之所以能实现从 " 玩具 " 到 " 工具 " 的质变,其核心驱动力在于底层技术范式的根本性转变——从基于海量数据统计的模式匹配,升级为对物理世界规律进行模拟与理解的 " 世界模型 "。这一转变解决了此前技术无法逾越的两大鸿沟,即物理合理性与长期一致性。其中,长期一致性更是实现影视级应用的前提。

据媒体报道,HappyHorse 用一个统一的 Transformer 同时处理视频和音频,一次推理直接输出带声音的成片,不需要后期拼接。这种有点特别的技术架构(单流 Transformer 架构),对提升长期一致性很有优势。

统一的 Transformer 直接处理长序列的混合 Token,其自注意力机制能够捕捉视频帧与音频帧之间长距离的依赖关系。

这比用多个独立模型分别处理再协调要简单直接,减少了信息在模块间传递的损耗,理论上更有利于维持长时序的连贯叙事。

根据 Artificial Analysis 的评测指标(满分 5 分),HappyHorse 在物理一致性方面得分为 4.52,视觉质量得分为 4.80,文本对齐得分为 4.18。这表明其在基础一致性方面表现良好,但在复杂场景下的长期一致性仍有提升空间。

不过参考 Sora 的经验可知,长期一致性表现好≠商业可用性表现好。

根据央视财经的报道,Sora 在实际应用中,其长期一致性高度依赖大模型的 " 记忆 " 能力, 商业可用率极低,仅 5%-10% 的生成视频能用于初步筛选,更像一个不可控的 " 抽卡游戏 "。

Sora 的关停,也并非源于技术升级的困难,而是一笔算不过来的经济账。据 Appfigures 估算,Sora 上线以来的应用程序内总收入仅约 210 万美元,投入产出比接近 2500:1,堪称 AI 史上最昂贵的 " 技术烟花 "。

硅谷风投机构 a16z 合伙人 Olivia Moore 曾在社交媒体晒出 SensorTower 的监测截图,显示 Sora APP 的 30 天用户留存率为 1%,60 天留存率 0%。如此低的留存率,显然不符合商业应用的要求。

AI 发展到了今天,资本对无法变现、耗资巨大的技术突破态度已经足够理智,甚至是冷酷了。所以,正在筹备上市的 OpenAI 只能关停 Sora,并退回和迪士尼的 10 亿美元合作款项。

而且 OpenAI 也需要集中精力继续推进世界模型的研发。毕竟从某种意义上来说,并不存在单独的视频大模型,视频大模型更像是是世界模型和多模态技术融合进程中的阶段性里程碑。

目前顶级的视频模型几乎都基于 DiT 架构,这个架构的前身是图像生成 Diffusion,下一步很可能就是 Omni-Model。视频只是这些模型在时间维度上插了帧,并在数据清洗时喂入了大量物理世界因果片段。

做视频,是验证时空预测能力的最低门槛。能做出视频大模型的公司,理论上也可以把这种技术用来研发其他垂直领域的大模型 ——如果有足够多优质的真实数据用来训练。

阿里的目标,显然也不只是做出一个受欢迎的视频生成工具。

AI 视频大有潜力

视频是 AI 大模型很好的垂直应用方向,因为从流量逻辑看,视频是 AI 目前唯一能无缝嵌入娱乐、社交、电商三大现金牛领域的模态。

ChatGPT(文本)的月活是亿级,TikTok(视频)的日活是十亿级。人类天生就懒于阅读文字,乐于消费视频。字节能深入所有互联网巨头的业务腹地,也是因为它抓住了视频这个关键点。

抖音上的视频流数据,涵盖人物行为、物体运动、场景交互等多维度的动态信息,每一帧都是真实世界规律的记录。用这种优质数据训练出的垂直应用 AI,很容易就赢在起跑线上。

根据极客公园测算,Seedance2.0 生成 15 秒视频的可用率或达到 90%,相较此前行业内大概 20% 的平均值,提升幅度较大。技术实力与商业可用性的双重提升,让 Seedance2.0 的爆火很容易理解。

而且 Seedance 2.0 的商业化推进,节奏感极强。先用 " 宠物猫狗暴揍哥斯拉 " 等病毒式模板引爆社交媒体的全民二创热潮,完成零成本的流量引爆和用户教育,在口碑和需求双双达到顶峰后,立即启动商业化变现。

3 月 4 日,火山引擎公布商用定价:包含视频输入的场景 28 元 / 百万 tokens,不含视频输入 46 元 / 百万 tokens,折合纯视频生成成本约 0.95 元 / 秒。

紧接着,字节采取差异化定价面向市场、降低门槛开放公测的策略,于 4 月 2 日正式面向企业用户开放 API 申请。至此,Seedance2.0 完成了从网红 AI 玩具到企业生产工具的身份跃迁。

这也验证了 AI 产业投资逻辑的变化,无论是公司内部的资金还是外部的资金,都会流向更能垂直应用、快速变现、贡献 ROI 的地方。B 端和 C 端的用户在付费时,也同样遵从这个底层逻辑。

一个值得注意的细节是,HappyHorse 原生支持英语、普通话、粤语、日语、韩语、德语、法语的唇形同步,这很可能是为了让 HappyHorse 生成的视频能进入到电商(包括跨境电商)等实际应用场景中。

毕竟张迪作为快手可灵和阿里 HappyHorse 之父,不仅懂技术,也很懂业务(这一点从他的职业履历就能看出),天然就擅长把业务思维带入到 HappyHorse 的技术研发中。

一个佐证是,快手可灵的商业化效果已经有了财报数据支撑。2025 年第四季度,可灵 AI 营业收入达到 3.4 亿元;2025 年 12 月单月收入突破 2000 万美元,年化收入运行率(ARR)达到 2.4 亿美元。

而且,HappyHorse 所属的阿里 ATH 创新事业部,早已喊出 " 创造 Token、输送 Token、应用 Token" 的口号。这种以 "Token 消耗量 " 为核心 KPI 的组织设计,决定了其下所有技术尝试,其实都会落脚在商业化应用上。

和 Seedance 2.0 一样,HappyHorse 从匿名冲榜到官宣认领,再到计划开放 API、接入阿里百炼 MaaS 平台,商业化推进的节奏也非常快。

考虑到 HappyHorse 团队负责人郑波同时兼任阿里妈妈 CTO,未来 HappyHorse 的应用很可能要与电商业务深度绑定。

不止工具,生态协同

让 AI 与原本的核心业务深度协同,带来更大的生态繁荣,是现在每个互联网巨头都看重的事。除此之外,阿里还有一个多年的心愿,即打造流量入口,反哺电商等核心业务。

理想情况下,HappyHorse 可以同时踩中这两个关键点。

作为视频生成工具,HappyHorse 可以应用于商品广告、虚拟主播等电商业务场景中。如果还能在 AI 内容生成的源头占据一席之地,就能为电商交易等业务提供内生流量,从而构建 " 内容 - 交易 - 履约 " 的完整闭环。

这并非毫无根据的想象,毕竟 Seedance2.0 已经杀入电商领域了。

4 月 2 日,AI Agent 公司 NoDesk AI 发布旗下产品 DeskClaw 新版本,正式接入 Seedance2.0。这是 Claw 赛道先一步明确聚焦垂直电商、也是电商领域首批接入 Seedance2.0 的 AI 产品。

对于大部分的投资者和从业人员来说,阿里作为电商一哥,似乎没有理由做不到类似的事情。

HappyHorse 这种阿里系视频生成工具的出现,某种意义上来说是符合公众预期的,毕竟,让商家可以在电商平台上直接用上稳定、可靠的视频生成工具,才是逻辑最顺畅的做法。

而内容生态领域,只要 HappyHorse 足够稳定、可靠并且便宜,同样可以杀出一片天地来。

对大部分的内容创作者来说,成本可控是非常重要,并不只是简单的价格高了或者低了的问题。

无论是个人 UP 主、小型工作室还是 MCN 机构,其内容生产都有预算和周期。一个价格频繁波动、排队时间无法预估的工具,会直接打乱整个生产计划,让项目无法报价、无法按期交付。

Seedance2.0 现在恰恰就有这样的问题和风险。一方面,高峰期普通用户排队可达 8 万人,等待时间超过 7 小时,即便是付费高级会员也难以幸免。

另一方面,即梦平台在短期内连续调价,据说制作一部 2 分钟 AI 漫剧的纯素材生成成本,已经从最初的约 7 元飙升至 80 元,击穿了许多中小团队的商业模式底线。

" 字节在年费之上推出 vvip 等升级服务,算是变相提价了,就是因为 Seedance 一家独大 ", 有用户向《财经故事荟》吐槽," 现在 HappyHorse 上线,估计字节要掂量掂量了。"

只要 HappyHorse 质量稳定,又能做到体验好、定价低,就可以从竞争对手那里挖到到一批有真实内容生成需求的客户了。或许聪明的阿里云销售,已经开始接触火山引擎的客户了。

字节今天放开 Seedance2.0 的 API 接入,就是在主动降低用户的使用门槛,有了 HappyHorse 这个对手,接下来双方大打价格战,也是大概率事件。

字节、快手、阿里三国杀,模型能力你追我赶,算力成本稳中有降,让越来越多的中小创业者可以享受到技术普惠的红利,也能快速引爆市场——这才是我们想看到的 AI 时代。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容