APP下载

关于ZAKER

合作

量子位 08-20

DiT 突遭怒喷，谢赛宁淡定回应

什么？有人提出 DiT 是错的？

这个被认为是扩散模型领域核心基石的 DiT，竟然被质疑了。

这位网友表示，不仅数学上是错的，形式上是错的，甚至怀疑 DiT 根本就没有 Transformer？！

一石激起千层浪，网友们速速来围观。结果作者谢赛宁本人都立马站出来回应：

虽然知道楼主是标题党，但我还是忍不住要回应一下。

每个研究者都希望发现自己模型的不足，这是科学进步的动力。如果模型从未出错，反而值得担忧。

评价 DiT 需要提出假设、做实验、验证结果，而不是凭想象臆断，否则结论不仅可能错误，甚至完全不具科学性。

哇哦，先抨击了标题党，又强调了科学精神和实证方法的重要性，真的是很中肯的一番回应。

回过头来，咱先了解一下 DiT 为啥那么厉害。

要知道，早在 Transformer 占尽风头时，U-Net 在扩散模型领域仍然一枝独秀——

这时，DiT（Diffusion Transformers）横空出世，将 Transformer 与扩散模型融合，在计算效率和生成效果上均超越了基于 U-Net 的经典模型 ADM 和 LDM，同时把 Transformer 扩展到了图像视频领域。

如果 DiT 真错了，大量依赖 DiT 的生成模型都要崩塌，整个领域都得重新审视。

下面让我们来扒一扒这位网友针对 DiT 提出了哪些质疑。

关于 DiT 的可疑之处

他的观点均来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》。

这篇论文主要提出一种Tread 策略，能够将早期层随机选取的 token 传递至模型的更深层。

值得注意的是，这种方法并不限于常见的 Transformer 模型，同样可以应用于状态空间模型，且无需对架构进行修改，也无需引入额外参数。

那网友是如何通过这篇论文质疑 DiT 的呢？

其一，他首先借助论文中的一张图对 DiT 提出了质疑，认为 DiT 架构本身就能轻松学会数据集—— FID 迅速降低，这说明架构里有某种隐含特性。

其二，上图表明 Tread 模型比 DiT 在 40 万次训练迭代上快 14 倍，比 DiT 在 700 万次迭代时的最佳表现快 37 倍。

由此，这位网友直接抨击，小幅度提升效果可能只是优化，如果提升幅度巨大，就是在否定之前的方法。

其三，质疑者还提出不要使用 DiT。

如果你非得在训练时 " 切掉部分网络 "，也就是用学习机制把它彻底禁用，那你的网络基本上就废了。

其四，研究表示，在训练过程中，DiT 中被恒等替换的网络单元越多，模型评估反而更好。

其五，DiT 整个架构都后置层归一化，扩散过程会产生动态范围极高的实际输出。

因此，需要使用对数尺度来表示采样开始和结束时的信噪比差异。

其六，针对 Adaptive Layer Normalization（自适应层归一化）方法，尽管模型叫 DiT，但在处理条件输入时，只是走了普通的 MLP 流程。

能看到的只是 label_y → timestep_t → embed → conditioning → MLP → bias terms，根本看不到 Transformer 的任何痕迹。

上面 6 条对 DiT 的反驳，都可以说是有理有据，甚至图文并茂。

那谢赛宁是如何回应的呢？

谢赛宁回应 Tread 与 "DiT 是错的 " 毫无关系

首先，谢赛宁对 Tread 模型的工作给予了肯定（人情世故）。

他认为 Tread 更像是随机深度（stochastic depth），其能收敛完全是因为正则化对特征稳健性的提升。

他还指出，尽管 Tread 模型挺有趣的，但与原帖作者所谓的 "DiT 是错的 " 的论断毫无关系。

谢赛宁强调，Lightning DiT 作为一种经过验证的强大升级（采用 swiglu、rmsnorm、rope、ps=1），只要条件允许，都推荐优先使用该版本。。

此外，目前还没有证据表明后置层归一化会引发问题。

回击完了质疑者，谢赛宁还不忘总结了一下自己的工作。

他表示：

过去这一年，最大的改进集中在内部表征学习（internal rep learning）上。

REPA（Representation Alignment）算是我们最早提出的方法，但现在已经有更多实现方式，比如：tokenizer 级别的修正（如 va-vae、REPA-E）、将语义 token 拼接到噪声潜变量中、解耦架构（如 DDT）、正则化方法（如 dispersive loss）或自表征对齐（self-representation alignment）等等。

其次，他们团队在训练模型时，始终采用随机插值 / 流分配来提升训练效果，而 SiT 则被用作基准方法来评估其他方法是否有效。

在 DiT 中，时间嵌入最好使用 adaln-zero，需注意的是，使用 adaln-zero 时最好共享参数，否则会白白浪费 30% 参数，而对于更复杂的分布（如文本嵌入），则使用 cross-attention。

最后，谢赛宁也是直接提出 sd-vae 才是 DiT 真正的症结所在，处理 256 × 256 分辨率的图像竟需 445.87 GFlops，还不是端到端的架构。

目前，像 va-vae 和 repa-e 这类方法只能解决部分问题，但更多改进方案正在不断涌现。

参考链接：

[ 1 ] https://x.com/sameQCU/status/1957223774094585872

[ 2 ] https://x.com/sainingxie/status/1957842855587639369

[ 3 ] https://arxiv.org/pdf/2501.04765

[ 4 ] https://arxiv.org/abs/2212.09748

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

8 月 22 日本周五，下午 14 点，量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee，一同来聊AI Agent，怎么搞投资？

欢迎线下参会！面对面交流 AI Agent、金融投资与 AI 创业

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

DiT 突遭怒喷，谢赛宁淡定回应

宙世代

一起剪

相关阅读

罗永浩锐评iPhone 17 Pro Max：工业设计二流 拼接设计真难看

时隔5年！小米水浸卫士2发布：漏水检测 3年续航 众筹价59元

微软Windows 11推送命令行编辑器Edit：未来将成预装软件

Windows XP万能秘钥真相曝光！微软工程师回忆：一场灾难性泄露

红魔11 Pro外观出炉！背部水冷环酷炫 行业首次水冷、风冷双散热

vivo自研蓝河操作系统3发布：vivo WATCH GT 2首发

《时代》杂志公布年度300大发明：宇树、DeepSeek、华为、比亚迪均上榜

《战地6》最终配置需求：新增超豪华级Ultra++、RTX 5080只是起步

OpenAI的战略风险

行业首创滚筒活水洗地！石头自清洁扫拖机器人P20活水版图赏

进军全球！vivo全新系统OriginOS 6海外版10月15日发布

《时代周刊》评选2025年度最佳发明：国产厂商佰维mini SSD上榜

做出全球首款双形态家庭机器人，具身智能企业获数千万元融资

MCU的AI竞赛，已经打响

中信证券：国内外AI产业进展超预期，关注光模块/光纤光缆等算力核心环节

最新评论

量子位

热门推荐

罗永浩锐评iPhone 17 Pro Max：工业设计二流拼接设计真难看

时隔5年！小米水浸卫士2发布：漏水检测 3年续航众筹价59元

红魔11 Pro外观出炉！背部水冷环酷炫行业首次水冷、风冷双散热