关于ZAKER 合作
量子位 50分钟前

实测“清华特奖版 Sora ”:一图一 prompt 直接生成视频,堪称嘴强王者

那边 OpenAI 的 Sora2 还没全面开放,这边国内团队已经上线了自己的 " 特色打法 "。

清华特奖选手创办的 Sand.ai,上线了音画同步视频模型GAGA-1

你可以把它理解为:一个专门练 " 嘴功 " 和 " 表演感 " 的视频生成模型:

怎么样,奥特曼看了这视频都得说一句:好家伙!我啥时候跑去说相声了?

笑归笑,但有一说一,相比较满地开花的多模态模型,GAGA-1 感觉更像是把声音 + 表演这一块打磨得更顺溜了。

重点是——现在平台不需要邀请码,能直接白嫖开整!

GAGA-1 到底有多会 " 演 "?

打开 gaga 网站,首页设计一目了然,功能入口也毫不藏着掖着。

进入Gaga Actor板块,我们就能直接就能用上 GAGA-1 模型了。

用法也不复杂:上传一张图,加一句提示词,AI 角色立马 " 对嘴开演 "~

还有一点挺贴心的:

我们可以直接在 gaga 中生成图像(内置 NanoBanana 模型),省去了先生图、再传图、再合成的麻烦。

一个平台就能搞定从图到视频的全链路流程,这波操作属实牛啊~

接下来我们直接实测一波,看看它的 " 嘴皮子功夫 " 和 " 戏精潜质 " 到底靠不靠谱!

咱先复刻一个最近短视频爆火的 Sora2 街头采访的视频:

Prompt:男子在大街上采访另一个女孩,问道:" 你知道你是 AI 吗?" 女孩说:" 你们是哪家自媒体吗,账号叫什么啊我搜搜!"

单从画质来看,在 " 免费白嫖 " 前提下有这种分辨率确实蛮牛的。

人物的表情、动作也比较自然,嘴型和台词基本能对上。

当然也有一些明显的小 bug ——

比如视频中男生表情略显僵硬,女生语气有点 " 重音跑偏 ",这也算是 AI 音视频生成的通病了。

接着我们加大难度,来一个台词 + 镜头逻辑双挑战:

Prompt:台上的男子是一名脱口秀演员,他跟观众说 :" 有人问我梦想是什么?我说睡到自然醒,他说那叫失业。大家觉得我说的对不对。" 随后镜头给到台下大笑鼓掌的观众。

这段表现可谓稳中带喜:口型精准,语速自然,台词节奏拿捏得相当准~

但唯一的小缺点是——

最后那个切观众席的镜头没出现,看来 GAGA-1 在镜头调度上还差点火候……

继续整活——让梵高来玩点时空穿越的戏码:

Prompt:梵高专注地盯着前方,他用平稳的语调开口说道:" 都说我脾气大,其实我只对调色盘温柔。" 在这个过程中,他的手部不要移动。

好家伙,这磁性、这低气压感,GAGA-1 还真给梵高 " 量身定做 " 了一种 emo 式声线!

而且过程中他手还真一动没动,提示词理解得很到位。

再来玩点有意思的,我们让一个宝宝边做饭边接受采访:

Prompt:画外音——你这么小怎么就开始做饭了? 图片中的宝宝边做饭边说:爸妈基础孩子就不基础,不说了,说多了都是泪。

人物的表情动作处理都没啥问题,不错不错!

再来玩点抽象的,让一只骑摩托车的猴子发表 " 骑行感言 ":

整体内容是 OK 的,但最后几秒 " 猴子脸 " 有点变形,角色稳定性开始有点崩。

测试完角色台词功底,我们刁难一下 GAGA-1,测一点它不太擅长的领域——动作生成

让四只小猫上桌打麻将:

乍一看还挺有氛围,但看久了 bug 就冒出来了……

左边那只猫的侧脸有些畸形,而且四只猫虽然围坐,但并没有真的 " 打起来 " ——连一张牌都没打出去。

于是我们换个思路,不打了,改吃!

这次上场的是小猫和老虎,让它们一起大口大口吃火锅:

结果嘛……虽然火锅是有了,但场面更像是在拍 " 动物美食写真 " ——谁也不动筷子。

(感觉完全没有 " 狼吞虎咽 " 的节奏?)

测到这里,其实心里也就有数了。

GAGA-1 擅长的确实是 " 会说话 " 的任务,不论是口型同步还是神态演绎,整体表现都算得上是优等生。

但一旦进入多角色、多动作的复杂场景,问题就会浮现出来——

角色动作容易脱节、面部形象容易飘、剧情逻辑也容易断裂。

好在 GAGA-1 从一开始就没打 " 万能模型 " 的主意,而是清晰聚焦在说话和表演这件事上。

会说会演,才是它的核心竞争力。

One More Thing

值得一提是,gaga 背后的团队我们也不陌生—— Sand.ai。

没错,就是在今年 4 月发布首个实现顶级画质输出的自回归视频生成模型Magi-1背后的团队。

Sand.ai 创始人曹越,博士毕业于清华大学软件学院,2018 年获清华大学特等奖学金。

并于 2021 年以 Swin Transformer 共同一作身份获 ICCV 最佳论文 " 马尔奖 "。

大佬履历一亮出来,gaga 这波团队实力更加坐实了……

当大多数模型都在追求 " 啥都能来一点 " 的全能标签时,gaga 反而用一张 " 嘴 ",打出了属于自己的节奏。

至少目前来看,gaga 把一个点的体验——音画同步的台词生成,打磨得异常扎实、实用又顺手。

AI 生成视频玩家里," 嘴 " 强王者了…

gaga 网址:https://gaga.art/app

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见