文 | 窄播,作者 | 李威
国庆假期刚开始,Sora 2 就引爆了整个 AI 圈子。
这个新的视频模型带来了对现实世界更精准的呈现,有更强的可控性,能创造出复杂的音频,并且能够轻松地将现实世界中的人和物插入到 AI 生成的视频内容中,完成一场现实里很难实现的高难度客串(Cameo)。
于是,我们在这两天看到了大量由 OpenAI CEO Sam Altman 参演的 AI 视频作品,他会与瑞克、莫蒂对谈,和同事一起撞翻充满彩色泡泡球的浴缸,在一个播客中参与讨论。这些内容发布在与 Sora 2 同步推出的 Sora App 上,被看作是「AI 抖音」将要到来的体现。
很多人相信,人们会被客串激发出更多 AI 视频的创造行为。但我们认为,即便有完整的内容推荐功能,当下的 Sora App 本质也还是一个工具,而不是平台,它与另一个近期大火的 AI 视频生成产品 Higgsfield 是同类——都是在利用 AI 提供更高级的滤镜,激发出人们跟风和模仿的冲动。
Sora 2 带来的模型能力的提升,更可能会加快 To B 方向的落地,推动整个视频大模型行业的技术更新,让 AI 更好地服务于有创作冲动的人。我们不知道 To C 层面的 AI 抖音什么时候能够出现,以及 AI 抖音会带来什么样的商业模式,但我们能够确定,AI 对影视行业的改变,正在催生出更多具备商业收益的内容。
就像 AI 短剧《巨蛇怪谈》的导演吉星所说:「现在 AI 给影视行业带来的变化,就像当年从胶片到数字的革新一样。」
他认为,从胶片到数字的变化是让电影厂之外的更多人有了拍摄影视作品的机会。但是,数字时代,拍摄一部作品还需要去搭建一个剧组,要有制片、摄影、灯光、美术、造型等分工。到了 AI 时代,《巨蛇怪谈》的创作团队只有吉星、一名编剧和一名 AI 技术人员,上线番茄、红果平台后已经获得了累计超 500 万次播放。
Sora 2 的上线也说明,大模型公司仍然在不断提升图片、视频、音乐生成模型的能力,降低内容生成的成本,使其内容生成效率越来越贴合实际创作的使用需要。同时,在产品层面,大模型厂商和创业团队也在通过创作流程、工具的创新,探索如何进一步降低用 AI 讲故事的门槛。
人们越来越可以期待,AI 带来视频创作,甚至是影视作品创作的平权——创作经验被提炼出来,成为 AI 产品的一部分,一个普通人能做出来一部影片,个人的想象力和创作欲被极大激发出来。虽然现实可能是,创作工具能够平权,创作冲动却无法大众化。
但起码,生成工具的变化,很可能带来生产关系的变化,让影视行业诞生出新的游戏规则。
加速奔跑的 AI 视频
吉星是一名有着 10 年传统影视行业工作经验的导演。今年以前,他都没有将视频生成模型等 AI 技术与自己所处的行业联系起来。「但上半年遇到了两个事,一个是特效方面的,一个是音乐方面的,然后才发现,其实 AI 技术已经渗透进了我们影视产业链的各个环节。」吉星表示。
特效方面,吉星给去年拍摄的一部古装偶像剧做后期的时候,发现实拍的一个道具没有做好,再去建模一套道具的经费又不够,最终利用 AI 技术实现了更好的建模效果。音乐方面,因为主题曲歌手的录制档期要晚于预计的送审时间,音乐总监就用 AI 歌手先演唱了一版主题曲送审。
「过审之后,我才知道这版主题曲是 AI 歌手演唱的。」吉星由此才开始大量接触 AI 创作工具,并萌生了用 AI 创作工具讲故事的想法。然后用了两个多月的时间,他就摸索着创作并上线了自己的首部 AI 短剧《巨蛇怪谈》,并且已经开始筹备新的 AI 短剧作品。
吉星快速切换到 AI 短剧创作背后,是一场围绕 AI 影视创作在快速进行的技术迭代和产品更新。
2024 年,Sora 的横空出世,可灵的跟进截胡,真正开启了 AI 视频赛道的竞争。截止 2024 年底,国内已经出现了 20 多款视频大模型产品,阿里、腾讯、字节都参与其中。海外市场,Google、Meta 等巨头,还有 Runway、Luma AI、Midjourney 等创业公司也纷纷加入战局。
在这一年,我们看到了《山海奇镜之劈波斩浪》、《新世界加载中》等 AI 短剧的出现。虽然以现在的眼光来看,当时出现的这些作品都还存在诸多瑕疵,但是,从探索的角度已经能够让人们用 AI 来讲故事、创作影视作品了。
同时,我们还看到了更野心勃勃的探索,比如,Runway 与狮门影业合作,要利用后者的影视作品资料库定制视频生成大模型。
也正是这些对技术可能性的初步验证,让人们对视频大模型保持了更强的信心和期待。
进入 2025 年,视频大模型的能力加速进化,人物一致性、细节效果上都有了明显进步,从一开始的尝鲜,向具备实际效果的生产工具过渡。可灵 2.1、Google 的 Veo 3、字节的 Seedance 1.0 pro 等模型,在生成效果上都各有优势。生数科技最新发布的 Vidu Q2 模型则已经开始强调对复杂表情的生成能力。
未来,当我们回顾 AI 技术对影视行业的影响时,Sora 2 的发布一定会让 2025 年成为有重要意义的节点。它就像此前爆火的 Nano Banana 一样,让人们看到了 AI 能够理解真实世界,并在生成的视频内容中进行模拟的可能性。Sora 2 不但生成的内容更有真实感,还能连续生成复杂镜头。
P 端是商业模式的重要支柱
视频大模型的商业化落地也在随技术能力的提升而加速,但这更多集中在 B 端和 P 端。
快手在 9 月公布的最新数据显示,自今年 4 月推出 2.0 模型以来,可灵 AI 的月度付费流水持续突破 1 亿元人民币。新上线的可灵 2.5 Turbo,价格降低了 30%,以进一步提升对创作者的吸引力。火山引擎也在和博纳影业等伙伴共创,用 AI 技术解决行业痛点。
OpenAI 推出的 Sora App 面向 C 端用户,目前获得邀请码的用户可以免费使用,但只能生成 10 秒、360P 画质的视频。一旦进行商业化,Sora App 的付费用户很有可能也会集中在 P 端,将生成的内容面向全平台分发,更具工具属性。
视频大模型在包括影视行业内的多个领域的落地应用、创造价值,进一步激发了资本的押注。9 月,已经有 Vidu 和爱诗科技两家国内的视频大模型厂商拿到了融资。其中,Vidu 完成了由博华资本领投的数亿人民币 A 轮融资,爱诗科技则拿到了阿里巴巴领投的 6000 万美元 B 轮融资。
在 Vidu、爱诗科技背后分别站着百度和阿里巴巴,这在一定程度上也可以理解为,巨头们在发起 AI 视频领域的代理人战争。Sora 2 的刺激下,巨头和资本可能会给视频大模型厂商提供更多资源,使其能够在更长时间内维持模型能力迭代、创新探索扶持,并且可能会加速视频大模型向影视、营销等垂直行业的渗透。
同时,首尾帧、参考生视频、灵动画布等功能的更新,也让视频生成大模型更贴合 P 端创作者对视频生成内容的一致性和可控性的更高要求。
在此基础上,我们看到,影视行业出现了更多追求商业化变现的 AI 短剧作品。吉星就是影视行业中被这波技术浪潮影响到,并选择快速拥抱的一员。珀乐互动联合 Vidu 创作的 AI 漫剧《明日周一》在全平台上线后,也已经收获了超过 1 亿观看。
「今年大家都卯着劲想要有各自的商业化落地。」珀乐互动 CEO 杨晟表示,「我们今天最看重的东西其实是,能不能有更多的人去相信它,然后去尝试。这个尝试不怕失败,试过之后才能慢慢培养出感觉。」
AI「炼丹」的效率提升了
影视行业积极拥抱视频生成大模型的一个核心原因就是,AI「炼丹」的效率提升了。
利用 AI 创作视频,往往需要先根据文字生成图片,然后再利用图片来生成视频,这个不断尝试生成的过程,会被称作「炼丹」或「抽卡」。提升炼丹效率,就是要追求用更低的尝试次数生成自己需要的视频。
「炼丹」效率的提升,有助于降低试错成本。AIpai 创始人、《山海奇镜之劈波斩浪》导演陈坤印象中,去年 Sora 发布后,奥特曼在线上接单,根据网友提出的要求来生成视频。确认一个要求后,过 40 分钟才能发出生成结果。
「他不展示生成过程,我们不知道背后是跑了多少条才选出了最好的一个。作为用户,我们是不能这么来做的。」陈坤表示。
杨晟的「勇于尝试」,也是建立在视频大模型有了更高的「炼丹」效率基础上的。在《明日周一》制作过程中,团队会先手绘原画,然后再利用其生成视频内容。这样做的「炼丹」效率是在 1:1.3~1:1.5。杨晟期待,在第二季的创作过程中,能够将「炼丹」的效率提升到 1:1.1 或 1:1.2。
对于杨晟和他的团队来说,总结和复用之前的创作经验,让团队成员都能具备 AI 视频生成的经验和手感,可以在一定程度上实现「炼丹」效率的提升,带来产能的进一步爆发。
但放到全行业来看,「炼丹」效率的提升,还是需要依赖视频大模型的能力和产品的提升。
一方面,视频大模型的基础能力影响生成效果,决定了「炼丹」效率的下限。如果下限太低,即便是有经验丰富的成员,团队也难以高效生成相应的内容。
在一年多前 Sora 和可灵发布时,我们让 AI 生成一个吃面条的画面都很困难,面条往往不是自然地通过咀嚼被吃进去的,而是会直接被无形的手塞进嘴里。
到了现在,我们再让 AI 去生成吃面条的视频时,画面和动作的呈现已经比之前更加自然。还有 Veo 3 引爆的切水果视频,AI 已经能够生成一个用刀切开橙子,然后汁水四溅的视频效果了。
OpenAI 发布的 Sora 2 的样片中,有维京战士乘着战舰登陆冰面,还有一对情侣在烟花下交谈。虽然这些样片和用户真正生成的效果之间还是有一定的差距,但也让我们看到了用 AI 讲出更好故事的可能性。原来生成一个 5 秒的视频,可能只有 0.5 秒能用,现在可能可以直接生成一个复杂镜头构成的桥段了。
另一方面,视频大模型的工具生成的一致性和稳定性,决定了「炼丹」效率的上限。影视行业在生成视频时常用的工具就是「参考生视频」与「首尾帧」。前者可以在生成打斗场面时,让 AI 参考给出的动作分镜来生成视频,首尾帧则是确定了视频的开头和结尾,让 AI 在这个过程中发挥更多创作性。
生数科技 CEO 骆怡航认为,参考生视频其实是整个 AI 创作范式的底层功能,是从线下拍摄视频到线上 AI 创作的一个本质的创作流程和方式的转变。Vidu 在 7 月上线了 Vidu Q1 参考生功能,支持用户上传七个主题,用其将人物、道具、场景等都定下来,无需经过生图、图再生成视频,直接一键根据参考图直出视频。
杨晟觉得参考生视频功能的上线,是「科学家们开始倾听行业的声音了。」
他的印象中,最初的大模型厂商爱强调自身模型生成视频的时长,但现实拍摄的长镜头其实是一个带有复杂运动调度的镜头组合,这跟「时长」是两个概念。时长增加是炫技,可能会生成很多不合用的素材;参考生视频才真正满足创作者的需求,给到了稳定的生成。
被 Adobe 选择的 Ray3,则选择了与参考生视频不同的优化逻辑。Ray3 赋予了视频大模型思维链推理能力,使其能够思考指示、评估生成效果、规划复杂场景的生成。用户可以看到模型的工作步骤,并通过可视化的标注工具进行标注,告知其需要调整的具体细节。
影视工作流在出现新变化
视频大模型基础能力提升的基础上,倾听更多行业的需求声音,是提升场景渗透率的有效路径。
一个是我们上文提及的——将行业需要的基础功能融入到视频大模型的生成思路中,另一个则是寻找 AI 生成能力与原有行业流程相结合后,能够产生怎样的新变化。相较营销广告、社交娱乐小视频,影视行业能够在视频领域沉淀出更广泛适用的工作流。
首先,是影视创作界面的创新。
可灵在世界人工智能大会(WAIC)上发布的灵动画布功能,就是在这个方向上的探索。与 ComfyUI 的形态相似,可灵也支持创作者在一块画布上添加不同的创作节点。这些节点会包含图片生成、视频生成、音乐生成等环节,不同环节又可以同时生成多个分支,让创作者更直观地进行对比和挑选。
据可灵 AI 产品及运营负责人李杨的介绍,可灵团队在调研中发现,一位可灵的超级创作者在创作过程中会在电脑上打开无数页面,在不同的 AI 工具之间来回切换游走,通过网盘和团队伙伴互传文件。然后可灵团队就推出了灵动画布,来一站式实现 AI 视频的全链路创作和团队协作。
其次,则是对传统影视创作链路的优化。
《明日周一》的创作过程会参考动画的制作过程进行。整个团队有 10 个人,用 45 天时间创作出 50 集 AI 漫剧,10 个成员中,有 2 人负责 AI 视频生成,剩下 8 人负责传统动画制作中的设定、分镜等工作。具体的制作标准会追求接近头部动画作品,做到每分钟内容有 80 帧画面。
AI 的应用,首先减少了原画师的工作量。《明日周一》中的空镜画面基本都有 AI 生成;在参考生视频功能下,很多视频内容的尾帧也是不需要画出来的。杨晟表示,《明日周一》的后半部分可能比原计划少画了三分之一的原画。在《永恒宇航员》(The Eternaut)中,Netflix 也实现了业内首次对 AI 生成特效的大规模使用。
AI 的应用,还省掉了中间环节。「做完分镜之后就要进团队,在导演和原画师的带领下开始画具体的画面,我们等于跳过了这个环节,分镜上色之后就直接生成视频了。」杨晟介绍道。
在真人影视内容的创作中,AI 也在提升一些环节的效率。导演薛晓路在可灵活动的分享中指出,传统的拍摄模式下,要经历确定演员、确定分镜头、确定场景的流程。一个造型设计可能需要出多个版本的方案,花费十天时间来完成。用 AI 来做,在速度和有效性上都能有很大提升。
AI 技术真正融入到影视行业,可能会带来新的想象力表达方式。「从最早前的炼丹、拆解 Prompt,包括寻找三维和传统影视当中的解决路径,然后再到论文和算法,我会发现 AIGC 对于视听行业的影响不仅是工具和流程上的变革,更是一种创作思路的牵引。」AI 短剧《新世界加载中》导演陈翔宇表示。
一键成片的时代还远吗
Agent 能力的应用应该会是推动这种创作思路变化的关键一环。
爱诗科技在最新的更新中就推出了一项 Agent 能力。这个 Agent 很模版化,用来帮助用户撰写提示词。用户找到想要生成的模版,按要求填空,就能让 AI 自动完成视频生成过程。Ray3 的推理能力一定程度上也可以被认为是具备一定的 Agent 属性。
还有一些创业团队想要打造一站式生成视频内容的 Agent 产品,让用户更低门槛地去讲故事。
陈坤的 AIpai 和好耶科技推出的 FilmAction 都是这类产品。具体使用中,这两个产品都支持选用不同的大模型,都可以完成脚本、分镜到视频、配乐的一整个流程。不同之处是,AIPai 会先进行比较详细的前期沟通,在沟通基础上完成视频,FilmAction 则会先生成视频,再进行调整。
这类产品想要踩中两个痛点:一个是普通用户没有传统影视创作的经验和知识,在提示词中往往不能讲清楚自己的准确需求,也不擅长剪辑、写剧本;另一个是,当下视频大模型很难出现一家独大的情况,创作者们都会按需选择大模型来使用,但不是所有人都清楚地了解视频大模型的最新技术进展。
「原来你可能只能生成单镜头的视频,自己再去剪辑。但是这件事情对于普通人来讲太难了。我们的产品会在一开始和你聊要做一个什么样的东西,然后能做出来一个有故事性的片子,做更多自我表达。」陈坤表示,未来希望用户能够只关心自己如何生成内容,而不必关心过程中会调用哪些模型。
这种低门槛的视频创作方式很容易让用户拥有一键成片的期望。好耶科技创始人吴杰茜告诉我们,Agent 能力上线的一个月内,FilmAction 的用户月活增长相当于过去一年的。在 FilmAction 的用户作品中也能看到用户蓬勃的表达欲,里面会有各种不同的题材。
吴杰茜认为,这样的智能体现阶段已经能够被用于 AI 短剧的创作。但如果想要创作更好的短剧内容,还是需要具备专业经验的人来调教和使用 AI。好耶科技目前也在做自己的短剧项目,在保证一定质量的前提下,团队成员人均一天能够制作一到两集的短剧。
「真正 AI 创作流程比影视创作流程有时候还要来得慢一些,因为你面对的不是成熟的制作工业已有的制片体系,而是一组组不确定性很高的模型算法,所以你必须根据已有的或者自研技术去建立阶段性的、不断更新的 AI 制作体系,脚本、美术、动画、算力储备还有算法测试再到最终成片。」陈翔宇表示。
在一键成片的时代到来之前,AI 在影视行业中会存在两个相对独立却有交叉的进化路径:一条是从创作者的层面来看,不断加深对 AI 技术的理解,在 AI 技术与传统经验中找到最佳结合点;另一条则是从技术层面来看,技术需要继续走向成熟,让 AI 生成的人物能够有丰富的表情,做出特定的调度。
从 Sora 2 身上,我们看到了 OpenAI 在第二条进化路径上的领先性,这给国内的可灵、即梦、Vidu、通义等都带来了一定的压力。与其说人们在期待 Sora 衍生出一个 AI 抖音,不如说人们在担忧字节在技术上没有拿出与其行业地位相匹配的 AI 视频技术和产品。
至于做出一个 AI 抖音,影响 C 端用户的社交和表达习惯,可能真的需要等待一键成片的成熟。抖音已经从手势舞走向抖音精选,人们对 AI 视频的起始期待就会是讲好一个故事,仅靠客串这样的模仿性功能,很难长时间维持用户的新鲜感。
同时,也需要解决好视频大模型的版权问题。有媒体通过测试认为,OpenAI 的 Sora 的训练数据包含了电影、Tiktok 内容和 Netflix 的节目内容。华纳兄弟、迪士尼和环球影业都以 AI 产品侵犯版权为由向 Midjourney 发起了诉讼。
目前业内通行的方式,是通过原画、定妆照等来尽量保证 AI 生成内容的原创性。OpenAI 在客串功能中增加了用户授权的流程。但这都不是最好的方案。前者还是有很高的创作门槛,后者已经暴露出了一定的短板。杨晟认为,当技术平权之后,决胜的将是内容质量,拥有 ip 和合规化数字形象变得格外重要。
未来服务于影视创作的一定是 AI 化的工具。不同于专业相机和傻瓜相机的区别,这个工具可能同时适用于 C 端、P 端和 B 端用户,带来一种工具层面的普惠。但也会因需求不同、创作者能力不同,选择不同的套餐,产生出不同的结果。很难实现创作冲动的普及,即便 AI 工具足够好用,也不会是人人都有创作欲和表达欲。
一键成片如果实现,那给影视行业带来的可能不是人人都有摄像机的作品大爆炸,而是一套新的内容生产体系和行业权力架构。