APP下载

关于ZAKER

Skills 合作

量子位 15分钟前

解决视频生成穿帮问题！浙大 & 微软 3000 条纯文本让模型理解 3D

视频生成有个老毛病，镜头一动就 " 穿帮 "，终于有了靠谱的解法。

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要 3D 数据，纯靠强化学习就让视频生成模型学会了 " 理解 " 三维世界。

所以，AI 视频为啥总穿帮？

现在的视频生成模型，画面精美是精美了，但有个致命伤：不懂三维。

你让镜头转个弯，建筑就扭了；推进去看个近景，物体就消失了。

本质上，这些模型只是在二维像素层面做统计拟合，根本不理解眼前的世界是个三维空间。

以前的解法呢？往模型里硬塞 3D 模块，但代价是推理成本飙升、泛化能力变差，而且只能做图生视频，文生视频根本搞不定。

World-R1 的思路：不改架构，靠 RL" 唤醒 "

World-R1 的出发点很简单：

预训练的视频模型里面已经有 3D 知识了，只是 " 沉睡 " 着。用强化学习把它叫醒就行。

具体怎么操作？三板斧。

第一斧：把相机轨迹 " 藏进 " 噪声

别人控制相机运动，需要额外训练一个控制网络。

World-R1 说：不需要。

它从文字里提取运动关键词（比如 "push in""orbit left"），生成相机轨迹，然后通过光流投影，直接把运动信息编码进扩散模型的初始噪声里。

一行代码不改，一个参数不加，相机就能跟着文字走。

第二斧：让 3D 模型当 " 裁判 "

RL 的核心是奖励函数。

World-R1 设计了一套四维复合奖励：元视角评分，用 Depth Anything 3 把视频 " 抬 " 成 3D 高斯溅射，再从一个完全不同的角度去看。

正面看没问题？换个角度可能就 " 露馅 " 了。

用 Qwen3-VL 当评审员，专门抓 " 纸片人 "。

重建保真度，3D 重建完再渲染回去，跟原视频逐像素比对。

轨迹对齐度，看生成的相机运动有没有老实听话。

通用画质，HPSv3 打分，确保画面不变丑。

整套奖励通过 **Flow-GRPO 框架优化。

第三斧：让模型 " 又硬又软 "

纯追求 3D 一致性会出问题：行人不会走路了，旗帜不会飘了，整个世界像冻住了一样。

World-R1 的解法是周期性解耦训练：正常阶段，用完整奖励猛练几何一致性；

每 100 步，切换到 " 动态专场 "，只用通用奖励在高动态数据上训练。

效果直接建筑稳如泰山，旗帜照样飘。

3000 条纯文本，没有一帧视频

你可能会问：训练数据从哪来？

答案是：不要视频，不要 3D 资产，纯文本就够了。

研究团队用 Gemini 生成了约 3000 条高质量场景描述，涵盖峡谷、城市、深海、蘑菇森林等各类场景，按相机运动难度分了三级。

模型就这样在 " 纯想象 " 中，学会了真实世界的物理规律。

实验数据

基于 Wan 2.1 训练了两个版本：World-R1-Small（1.3B）和 World-R1-Large（14B）。

3D 一致性

Small 版比基线 PSNR 涨了 10.23 dB，Large 版涨了 7.91 dB。LPIPS 从 0.467 降到 0.201，几何幻觉被干掉了大半。

画质不降反升

在 VBench 上，World-R1-Small 美学质量 65.74、成像质量 67.53，全面超越基线 Wan 2.1-1.3B。

而那些装了额外相机控制模块的方法（ReCamMaster、DAS），美学质量只有 38～42 分。

3D 增强了，画质也更好了，鱼和熊掌兼得！

眼见为实

3D 重建的点云也能看出差距：基线模型的重建像一堆散沙，World-R1 的像一座真实的建筑。

消融：每一刀都切在要害上

消融实验的结论很清晰：去掉 3D 感知奖励，几何一致性直接崩盘；

去掉通用生成奖励，画面美学肉眼可见地劣化；

去掉噪声包裹的隐式相机控制，收敛速度慢了一倍；

去掉周期性解耦训练，动态场景的生成能力几乎全废。

四个组件环环相扣，缺一不可。

World-R1 让视频模型 " 理解 " 三维世界，不必推倒重来——

只需用正确的奖励信号，唤醒它已有的空间感知。

论文链接：https://arxiv.org/abs/

项目主页：https://aka.ms/world-r1

代码：https://github.com/microsoft/World-R1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

卡位卫星互联网芯片星思迎来商业化拐点

21世纪经济报道 11小时前

反潮流！佳能新概念相机首次亮相：只做手动对焦

快科技 12小时前

OpenAI内部怒轰苹果合作：高调承诺背后实际推进乏力

财联社 11小时前

贾跃亭：重磅机器人新品6月初发布

快科技 13小时前

美银：2030年AI数据中心市场将达1.7万亿美元英伟达维持主导地位

财联社 16小时前

芯片涨价潮蔓延至代工端！中芯赵海军：订单回流中国、与客户协商涨价

快科技 17小时前

OpenAI与苹果合作关系急剧恶化

36氪 17小时前

华阳智能：无框电机项目完成功能样品开发工作正在进行性能优化与可靠性测试

财联社 17小时前

为什么库克、雷军，都想找马斯克合影？

钛媒体 17小时前

前世界首富贝索斯新公司募资说明书首度曝光，估值380亿美元

钛媒体 19小时前

阿里发布Qoder 1.0：自主接管代码生成、验证和交付全流程

快科技 19小时前

订单连增、股价翻10倍：芯原股份戴伟民解码AI定制芯片浪潮

21世纪经济报道 19小时前

华为超新星手表X1官宣：360° 旋转屏 + 跨品牌加好友

数码测评 19小时前

豆包收费，悟空走量：AI助手走向分化

钛媒体 19小时前

大模型刷榜时代，为什么榜单里没有京东？

钛媒体 19小时前

量子位

觉得文章不错，微信扫描分享好友

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

解决视频生成穿帮问题！浙大 & 微软 3000 条纯文本让模型理解 3D

宙世代

一起剪

相关阅读

卡位卫星互联网芯片 星思迎来商业化拐点

反潮流！佳能新概念相机首次亮相：只做手动对焦

OpenAI内部怒轰苹果合作：高调承诺背后实际推进乏力

贾跃亭：重磅机器人新品6月初发布

美银：2030年AI数据中心市场将达1.7万亿美元 英伟达维持主导地位

芯片涨价潮蔓延至代工端！中芯赵海军：订单回流中国、与客户协商涨价

OpenAI与苹果合作关系急剧恶化

华阳智能：无框电机项目完成功能样品开发工作 正在进行性能优化与可靠性测试

为什么库克、雷军，都想找马斯克合影？

前世界首富贝索斯新公司募资说明书首度曝光，估值380亿美元

阿里发布Qoder 1.0：自主接管代码生成、验证和交付全流程

订单连增、股价翻10倍：芯原股份戴伟民解码AI定制芯片浪潮

华为超新星手表X1官宣：360° 旋转屏 + 跨品牌加好友

豆包收费，悟空走量：AI助手走向分化

大模型刷榜时代，为什么榜单里没有京东？

最新评论

量子位

热门推荐

企业资讯

卡位卫星互联网芯片星思迎来商业化拐点

美银：2030年AI数据中心市场将达1.7万亿美元英伟达维持主导地位

华阳智能：无框电机项目完成功能样品开发工作正在进行性能优化与可靠性测试