APP下载

关于ZAKER

合作

量子位 50分钟前

实测“清华特奖版 Sora ”：一图一 prompt 直接生成视频，堪称嘴强王者

那边 OpenAI 的 Sora2 还没全面开放，这边国内团队已经上线了自己的 " 特色打法 "。

清华特奖选手创办的 Sand.ai，上线了音画同步视频模型GAGA-1。

你可以把它理解为：一个专门练 " 嘴功 " 和 " 表演感 " 的视频生成模型：

怎么样，奥特曼看了这视频都得说一句：好家伙！我啥时候跑去说相声了？

笑归笑，但有一说一，相比较满地开花的多模态模型，GAGA-1 感觉更像是把声音 + 表演这一块打磨得更顺溜了。

重点是——现在平台不需要邀请码，能直接白嫖开整！

GAGA-1 到底有多会 " 演 "？

打开 gaga 网站，首页设计一目了然，功能入口也毫不藏着掖着。

进入Gaga Actor板块，我们就能直接就能用上 GAGA-1 模型了。

用法也不复杂：上传一张图，加一句提示词，AI 角色立马 " 对嘴开演 "～

还有一点挺贴心的：

我们可以直接在 gaga 中生成图像（内置 NanoBanana 模型），省去了先生图、再传图、再合成的麻烦。

一个平台就能搞定从图到视频的全链路流程，这波操作属实牛啊～

接下来我们直接实测一波，看看它的 " 嘴皮子功夫 " 和 " 戏精潜质 " 到底靠不靠谱！

咱先复刻一个最近短视频爆火的 Sora2 街头采访的视频：

Prompt：男子在大街上采访另一个女孩，问道：" 你知道你是 AI 吗？" 女孩说：" 你们是哪家自媒体吗，账号叫什么啊我搜搜！"

单从画质来看，在 " 免费白嫖 " 前提下有这种分辨率确实蛮牛的。

人物的表情、动作也比较自然，嘴型和台词基本能对上。

当然也有一些明显的小 bug ——

比如视频中男生表情略显僵硬，女生语气有点 " 重音跑偏 "，这也算是 AI 音视频生成的通病了。

接着我们加大难度，来一个台词 + 镜头逻辑双挑战：

Prompt：台上的男子是一名脱口秀演员，他跟观众说 :" 有人问我梦想是什么？我说睡到自然醒，他说那叫失业。大家觉得我说的对不对。" 随后镜头给到台下大笑鼓掌的观众。

这段表现可谓稳中带喜：口型精准，语速自然，台词节奏拿捏得相当准～

但唯一的小缺点是——

最后那个切观众席的镜头没出现，看来 GAGA-1 在镜头调度上还差点火候……

继续整活——让梵高来玩点时空穿越的戏码：

Prompt：梵高专注地盯着前方，他用平稳的语调开口说道：" 都说我脾气大，其实我只对调色盘温柔。" 在这个过程中，他的手部不要移动。

好家伙，这磁性、这低气压感，GAGA-1 还真给梵高 " 量身定做 " 了一种 emo 式声线！

而且过程中他手还真一动没动，提示词理解得很到位。

再来玩点有意思的，我们让一个宝宝边做饭边接受采访：

Prompt：画外音——你这么小怎么就开始做饭了？图片中的宝宝边做饭边说：爸妈基础孩子就不基础，不说了，说多了都是泪。

人物的表情动作处理都没啥问题，不错不错！

再来玩点抽象的，让一只骑摩托车的猴子发表 " 骑行感言 "：

整体内容是 OK 的，但最后几秒 " 猴子脸 " 有点变形，角色稳定性开始有点崩。

测试完角色台词功底，我们刁难一下 GAGA-1，测一点它不太擅长的领域——动作生成。

让四只小猫上桌打麻将：

乍一看还挺有氛围，但看久了 bug 就冒出来了……

左边那只猫的侧脸有些畸形，而且四只猫虽然围坐，但并没有真的 " 打起来 " ——连一张牌都没打出去。

于是我们换个思路，不打了，改吃！

这次上场的是小猫和老虎，让它们一起大口大口吃火锅：

结果嘛……虽然火锅是有了，但场面更像是在拍 " 动物美食写真 " ——谁也不动筷子。

（感觉完全没有 " 狼吞虎咽 " 的节奏？）

测到这里，其实心里也就有数了。

GAGA-1 擅长的确实是 " 会说话 " 的任务，不论是口型同步还是神态演绎，整体表现都算得上是优等生。

但一旦进入多角色、多动作的复杂场景，问题就会浮现出来——

角色动作容易脱节、面部形象容易飘、剧情逻辑也容易断裂。

好在 GAGA-1 从一开始就没打 " 万能模型 " 的主意，而是清晰聚焦在说话和表演这件事上。

会说会演，才是它的核心竞争力。

One More Thing

值得一提是，gaga 背后的团队我们也不陌生—— Sand.ai。

没错，就是在今年 4 月发布首个实现顶级画质输出的自回归视频生成模型Magi-1背后的团队。

Sand.ai 创始人曹越，博士毕业于清华大学软件学院，2018 年获清华大学特等奖学金。

并于 2021 年以 Swin Transformer 共同一作身份获 ICCV 最佳论文 " 马尔奖 "。

大佬履历一亮出来，gaga 这波团队实力更加坐实了……

当大多数模型都在追求 " 啥都能来一点 " 的全能标签时，gaga 反而用一张 " 嘴 "，打出了属于自己的节奏。

至少目前来看，gaga 把一个点的体验——音画同步的台词生成，打磨得异常扎实、实用又顺手。

AI 生成视频玩家里，" 嘴 " 强王者了…

gaga 网址：https://gaga.art/app

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

博主赞叹小米YU7 Max雨天刹车太好和干地都没什么区别：刚说完后被追尾

快科技 1小时前

一加Ace 6三证齐全蓄势待发：骁龙8至尊版+7800mAh史上最大电池

快科技 1小时前

全球首款8K全景无人机影石影翎A1入选《时代》2025年最佳发明

快科技 1小时前

全网最后一批躺赚博主，也被Al挤兑失业了

新周刊 1小时前

苹果官网再犯低级错误！AirPods写错成ArPods 网友：替苹果尴尬

快科技 3小时前

苹果官网出现错别字：官方紧急修正

数码测评 10小时前

8块钱买黑神话，这些“Steam入库”藏了多少猫腻？

差评 10小时前

汽车供应商集体拒绝“无限期合同”

汽车商业评论 3小时前

见所未见百微新生——索尼发布首款 G 大师微距镜头 FE 100mm F2.8 Macro GM OSS

摄影世界 2小时前

AMD将为Xbox定制超级APU：48GB显存 AI、光追随便跑

快科技 12小时前

雷军带队在高原测试小米YU7：平均海拔4000多米

快科技 12小时前

快升Win11 微软再给Win10终结发警告：能用但可能中毒

快科技 12小时前

Intel、微软押对宝了 AI PC市场明年将达1万亿：销量破1.4亿台

快科技 13小时前

iQOO 15独家标配AR增透消反保护膜产品经理：成本高别撕掉它

快科技 13小时前

量子位

觉得文章不错，微信扫描分享好友

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

实测“清华特奖版 Sora ”：一图一 prompt 直接生成视频，堪称嘴强王者

宙世代

一起剪

相关阅读

博主赞叹小米YU7 Max雨天刹车太好 和干地都没什么区别：刚说完后被追尾

一加Ace 6三证齐全蓄势待发：骁龙8至尊版+7800mAh史上最大电池

全球首款8K全景无人机 影石影翎A1入选《时代》2025年最佳发明

全网最后一批躺赚博主，也被Al挤兑失业了

苹果官网再犯低级错误！AirPods写错成ArPods 网友：替苹果尴尬

苹果官网出现错别字：官方紧急修正

8块钱买黑神话，这些“Steam入库”藏了多少猫腻？

汽车供应商集体拒绝“无限期合同”

见所未见 百微新生——索尼发布首款 G 大师微距镜头 FE 100mm F2.8 Macro GM OSS

AMD将为Xbox定制超级APU：48GB显存 AI、光追随便跑

雷军带队在高原测试小米YU7：平均海拔4000多米

快升Win11 微软再给Win10终结发警告：能用但可能中毒

Intel、微软押对宝了 AI PC市场明年将达1万亿：销量破1.4亿台

iQOO 15独家标配AR增透消反保护膜 产品经理：成本高 别撕掉它

最新评论

量子位

热门推荐

博主赞叹小米YU7 Max雨天刹车太好和干地都没什么区别：刚说完后被追尾

全球首款8K全景无人机影石影翎A1入选《时代》2025年最佳发明

见所未见百微新生——索尼发布首款 G 大师微距镜头 FE 100mm F2.8 Macro GM OSS

iQOO 15独家标配AR增透消反保护膜产品经理：成本高别撕掉它