什么?有人提出 DiT 是错的?
这位网友表示,不仅数学上是错的,形式上是错的,甚至怀疑 DiT 根本就没有 Transformer?!
虽然知道楼主是标题党,但我还是忍不住要回应一下。
每个研究者都希望发现自己模型的不足,这是科学进步的动力。如果模型从未出错,反而值得担忧。
评价 DiT 需要提出假设、做实验、验证结果,而不是凭想象臆断,否则结论不仅可能错误,甚至完全不具科学性。
回过头来,咱先了解一下 DiT 为啥那么厉害。
要知道,早在 Transformer 占尽风头时,U-Net 在扩散模型领域仍然一枝独秀——
这时,DiT(Diffusion Transformers)横空出世,将 Transformer 与扩散模型融合,在计算效率和生成效果上均超越了基于 U-Net 的经典模型 ADM 和 LDM,同时把 Transformer 扩展到了图像视频领域。
如果 DiT 真错了,大量依赖 DiT 的生成模型都要崩塌,整个领域都得重新审视。
下面让我们来扒一扒这位网友针对 DiT 提出了哪些质疑。
关于 DiT 的可疑之处
他的观点均来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》。
这篇论文主要提出一种Tread 策略,能够将早期层随机选取的 token 传递至模型的更深层。
值得注意的是,这种方法并不限于常见的 Transformer 模型,同样可以应用于状态空间模型,且无需对架构进行修改,也无需引入额外参数。
那网友是如何通过这篇论文质疑 DiT 的呢?
其一,他首先借助论文中的一张图对 DiT 提出了质疑,认为 DiT 架构本身就能轻松学会数据集—— FID 迅速降低,这说明架构里有某种隐含特性。
由此,这位网友直接抨击,小幅度提升效果可能只是优化,如果提升幅度巨大,就是在否定之前的方法。
其三,质疑者还提出不要使用 DiT。
如果你非得在训练时 " 切掉部分网络 ",也就是用学习机制把它彻底禁用,那你的网络基本上就废了。
因此,需要使用对数尺度来表示采样开始和结束时的信噪比差异。
能看到的只是 label_y → timestep_t → embed → conditioning → MLP → bias terms,根本看不到 Transformer 的任何痕迹。
那谢赛宁是如何回应的呢?
谢赛宁回应 Tread 与 "DiT 是错的 " 毫无关系
首先,谢赛宁对 Tread 模型的工作给予了肯定(人情世故)。
他认为 Tread 更像是随机深度(stochastic depth),其能收敛完全是因为正则化对特征稳健性的提升。
他还指出,尽管 Tread 模型挺有趣的,但与原帖作者所谓的 "DiT 是错的 " 的论断毫无关系。
谢赛宁强调,Lightning DiT 作为一种经过验证的强大升级(采用 swiglu、rmsnorm、rope、ps=1),只要条件允许,都推荐优先使用该版本。。
此外,目前还没有证据表明后置层归一化会引发问题。
回击完了质疑者,谢赛宁还不忘总结了一下自己的工作。
他表示:
过去这一年,最大的改进集中在内部表征学习(internal rep learning)上。
REPA(Representation Alignment)算是我们最早提出的方法,但现在已经有更多实现方式,比如:tokenizer 级别的修正(如 va-vae、REPA-E)、将语义 token 拼接到噪声潜变量中、解耦架构(如 DDT)、正则化方法(如 dispersive loss)或自表征对齐(self-representation alignment)等等。
其次,他们团队在训练模型时,始终采用随机插值 / 流分配来提升训练效果,而 SiT 则被用作基准方法来评估其他方法是否有效。
在 DiT 中,时间嵌入最好使用 adaln-zero,需注意的是,使用 adaln-zero 时最好共享参数,否则会白白浪费 30% 参数,而对于更复杂的分布(如文本嵌入),则使用 cross-attention。
最后,谢赛宁也是直接提出 sd-vae 才是 DiT 真正的症结所在,处理 256 × 256 分辨率的图像竟需 445.87 GFlops,还不是端到端的架构。
目前,像 va-vae 和 repa-e 这类方法只能解决部分问题,但更多改进方案正在不断涌现。
参考链接:
[ 1 ] https://x.com/sameQCU/status/1957223774094585872
[ 2 ] https://x.com/sainingxie/status/1957842855587639369
[ 3 ] https://arxiv.org/pdf/2501.04765
[ 4 ] https://arxiv.org/abs/2212.09748
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
8 月 22 日本周五,下午 14 点,量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee,一同来聊AI Agent,怎么搞投资?
欢迎线下参会!面对面交流 AI Agent、金融投资与 AI 创业
一键关注 点亮星标
科技前沿进展每日见