
而短视频平台(如快手可灵、抖音即梦)凭借其庞大的流量基础,加之模板化创作 + 社区分发的使用闭环,在全球市场占有率上甚至超过了以 Sora、Google Veo 为首的技术领跑者。而这一趋势也使得全球的主流 AI 视频模型都在追求短片中的极致细节,以此来最大程度吸引 C 端用户的付费。
这种现状也使得市场上主流的视频模型在面对 " 长片 ",尤其是电影这种工业级需求时体现出的种种 " 力不从心 "。
首先是一致性的问题,主流视频模型在处理短视频、,少人物、,简单场景的镜头转换时还能勉强保持一致性。而一旦涉及到长程视频、多人物、复杂场景,就会很难维持角色外貌、服装和场景元素的稳定。其次是模型叙事能力的缺失,视频模型难以理解剧本中的因果链条和叙事手法,更无法匹配与之相符的镜头语言,导致生成的内容常常与导演意图天差地别。另外,主流模型的物理规则认知水平不足。对于短视频这种 " 浅内容 " 来说,些许的物理 " 幻觉 " 是可以容忍的,模型靠对 2D 像素统计规律理解的物理规则已经足够。但对于电影工业级别的视频需求,这些还远远不够。
而事实上,短程 vs 长程,追求细节 vs 追求叙事,短视频 vs 电影,AI 视频生成模型的发展已经根据需求的差异分化出了完全不同的路径,影视工业级的 AI 视频大模型正逐渐浮出水面。
新物种来袭
近日,好莱坞的 AI 原生影视工作室 Utopai Studios 宣布,与全球创新与投资平台 Stock Farm Road 共同出资数十亿美元,设立新合资公司 Utopai East,旨在建立全球首个 AI 原生影视制作体系。同时,Utopai Studios 还同步推出专为电影与电视制作而设计的 AI 模型和工作流。与短视频界面的模型不同,该模型具备 " 理解剧本、解析故事,并协助导演规划镜头和生成场景 " 的能力。
根据公开资料,Utopai Studios 是第一家加入好莱坞公会的 AI 公司,在业内被看作是 " 打破了好莱坞对 AI 抵触 " 的关键节点。公司前身 Cybever 创立于 2022 年,专注于 " 用 AI 生成高精度 3D 虚拟环境 ",初期服务游戏与影视行业。2025 年,公司更名为 Utopai Studios,从 "AI 技术供应商 " 转型为 "AI 原生影视工作室 ",聚焦用 AI 技术制作电影、电视剧等原创内容。
Utopai Studios 的创始人兼首席执行官 Cecilia Shen 出生于 2000 年,大学就读于加拿大滑铁卢大学,主修数学,大学二年级就进入 Google X 实验室,参与 Moonshot 项目。2022 年,她与 Jie Yang(前 Google X 同事)联合创立了 Cybever。

而新公司的另一个主角 Stock Farm Road(以下简称 SFR),由韩国 LG 集团继承人,斯坦福校友,近些年活跃在硅谷创投圈的 Brian Koo 与阿联酋 Offsets Group 创始人、前董事长兼 CEO,推动了阿联酋主权财富基金成立的 Dr. Amin Badr-El-Din 联合成立。此前,SFR 也对外公布了即将在韩国建设 350 亿美元级 AI 数据中心的计划。这个全球最大之一的数据中心与本次设立的新公司构成战略联动,为 AI 模型训练、渲染与生成提供基础算力支撑。

在这个合资体系里,Utopai 提供 AI 制作核心能力,Stock Farm Road 提供资本、算力、数据与国际化通道。这一体系也成为 AI 时代下全球产业—技术—资本联动的成功案例(韩系产业资本 + 硅谷创新网络 + 中东主权资金)。
影视工业级视频模型
让我们聚焦到 Utopai 的 AI 影视模型,看它是如何完成理解剧本、解析故事,并协助导演规划镜头和生成场景这些动作。
影视工业化的传统流程,是靠人工完成从剧本→故事板→ 3D previz →实拍→后期的工作。动画上靠手捏,制作上靠 physical production,前期场景搭建与预可视化工作量巨大,且修改起来非常麻烦。头部影片从立项到上映常常需要 3 – 5 年,这个过程既费钱又费时间。
而 Utopai 的影视模型,会自己把剧本拆解为故事板、通过 3D-EnGen 生成可交互的 3D 场景,再输出可控视频,直接把剧本可视化,实现端到端闭环(Previz-to-Video Pipeline)。通过对剧本内容、叙事结构、电影语言和视觉风格的深度解析,,该模型采用 " 规划—生成 " 的自回归 AR(auto-regressive)机制,在创作者的全程指导下,系统性地规划并生成多镜头序列,确保作品的叙事连贯性与画面一致性。这套工作流也并非靠单一模型来完成,而是像电影工作组一样 " 分工协作 " 完成。其中自回归模型负责 " 规划 ",扩散模型负责 " 渲染 ",最后通过统一状态空间耦合。

接着,扩散模型作为 " 执行引擎 ",负责根据既定叙事蓝图,依靠专业化的生成模块(包含优化的 Diffusion 技术)下层的条件渲染器,专注于执行高质量的画面生成。和主流短视频模型的 " 概率生成模型 " 这种 " 随机抽卡式 " 产出不同,扩散模型严格依据规划层输出的结构化指令生成画面,生成条件包括深度、法线、光流、遮罩、参考帧、相机轨迹等丰富的结构化信号。


据 Utopai Studio 表示,大部分实际使用过模型的导演反馈他们并没感觉到被替代,反而被激发了。很多导演在看到系统的实时生成后,会立刻想到更好的场景、更有张力的镜头。然后他们会重写剧本、重新设计节奏。换句话说,AI 并没有收窄他们的想象力,而是把创作灵感低成本地提前释放了出来。
" 所以我更愿意说,AI 不是让创作者消失,而是让他们变得更‘ " 纯粹’ "。"Cecilia Shen 提到对我们说," 还是回到初始,模型只是众多技术浪潮中的一个而已。每一位艺术家或创作者都像孩子一样,他们不是抵触技术。比如《玩具总动员》1995 年上映,这是世界上首部数字制作的动画长片,无论在创意还是技术上都是一次影响深远的跃进,也在全球斩获了将近 4 亿美元的票房收入。今天的情况同样如此,所谓的抵触 AI,是否是因为我们用 AI 的方式错了?"
据悉,Utopai 产出的所有影视作品均已用到了该模型体系。其中,《科尔特斯》(Cort é s):由奥斯卡提名编剧 Nicholas Kazan 执笔,顶级概念设计师 Kirk Petruccelli 执导,被誉为 " 史上最难拍史诗巨作 ",常年位列好莱坞呼声高却未能拍摄的电影前 10 位,Utopai 将以 AI 原生制作两部 100 分钟电影来呈现。另一部以 AI 原生制作的 8 集科幻剧集《太空计划》(Project Space),被誉为 " 当《壮志凌云》遇见《世界大战》",由 Vanessa Coifman 和 Martin Weisz 担任编剧和导演,目前也已成功预售到欧洲市场了。
数据基座与训练方法
Utopai 模型能力的飞跃源于其独特的训练数据和训练方法论,其核心是让 AI 从大量高质量、带精确标注的 3D 合成数据中学习,而不依赖于通用视频模型常用的网络二维视频数据。这种方法使模型能够内化物理规律,从根本上理解空间、遮挡和碰撞等三维世界规则,有效避免生成内容出现违背物理规律的 " 幻觉 " 问题。
Utopai 从设计之初就非常关注合规和透明。模型仅使用经授权、与影视内容高度相关的专业数据集进行训练,确保学习来源于专业且合规的素材,避免使用未经筛选的互联网数据,确保学习源头的高质量和合法性。而据我们了解,此次的合作方 SFR 就拥有体量相当庞大的合规视频数据集与算力基础设施,这也是此这次合作的重要战略协同。同时,Utopai 的工作流在美国、欧洲和亚洲均采用本地化部署,以符合各地区的 AI 与数据监管要求,确保使用透明、治理合规。" 数据永远是模型最大的壁垒。"Cecilia 对我们表示,"Utopai 目前模型只用于自制项目和影视领域信赖的合作伙伴,不会对外商业化,也暂不开放数据库、版权等。"
另一方面,Utopai 的对模型训练过程也非常独特,主要分为两个关键阶段:第一是几何与语义对齐预训练:此阶段目标是建立模型对物理世界和视觉元素的底层理解,进行 " 文本 - 视频 - 几何 " 对齐以及下一状态 / 掩码重建等任务。第二是多模态指令微调:此阶段增强模型对复杂、抽象的叙事指令和跨模态约束的遵循能力,使其能精准理解并实现导演的创作意图。这种训练方式使模型能够对复杂的情感和叙事意图进行状态级的精确建模与可视化表达。
例如,当指令要求表现角色从 " 怀疑 " 转变为 " 恍然大悟 " 时,模型能够协调生成身体姿态、视线方向、镜头语言以及光影变化等一系列要素,呈现一个在表演逻辑上合理、情感层次分明的完整转变过程,而非简单地替换一个表情贴图。

当前 AI 视频领域的通用指标(如 FVD、CLIP Score)主要衡量视觉逼真度和文本符合度,但无法有效评估 " 叙事质量 "。Utopai 作为影视工业级视频模型的领先者,也在着力建立一套基于专业影视标准的内部评估体系,主要做了三个额外评估纬度的补充:一致性指标;剧本指令遵从度;制作效率的跃升指标。
在 Utopai Studio 验证中,这套工作流可以实现 60% 到 90% 提效,具体程度取决于内容类型和复杂程度。
视频模型的未来
谈及 AI 在影视工业的未来,Cecilia 说到:
" 接下来数年内,我们预计 workflow agent 将会在各行业爆发,AI 会带来更新的题材和内容,这是一定的。如果可以在一个行业里,将 80%~90% 的事情实现自动化,那你就是成功的。
不过衡量成功可能有两个重心,一个是是否真能做一个好的产品,而好的产品,要有好的审美和 taste,最终衡量标准并不应该是「智能」。因为如果用户需要不断纠正,那么这不是一个好的体验。第二个,效率层面是否能真的代替掉 80% 的行业臃肿重复的工作。
Utopai 底层强调的不是‘ " 无人参与’ " 和‘ " 替代’ ",技术应扩展人类想象力,让模型和工作流与创作者协作而非替代。每个组件都围绕创作流程而设计,可解读剧本、理解故事走向、协助导演进行镜头规划,并生成与叙事意图一致的场景。
此外,目前的视频模型只是一个渲染器,而未来视频模型会是 unified(理解性系统),会越来越有叙事逻辑、理解思考能力。到那时候,可能 AI 或许真的能自成导演。"(作者|郭虹妘、陶天宇,编辑|陶天宇)
更多对全球市场、跨国公司和中国经济的深度分析与独家洞察,欢迎访问 Barron's 巴伦中文网官方网站