Token 危机真的要解除了吗?
最新研究发现,在 token 数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。
论文一作 Jinjie Ni 在 x 上详细介绍了其团队的研究结论和方法。
扩散语言模型是超强的数据学习者
扩散语言模型之所以具备超强的数据学习能力,主要有两个原因:
1)扩散目标和双向注意力机制使其能够进行双向建模,更充分地挖掘网络数据中的信息,,而这些数据并非完全因果关系。
简单来说,传统自回归语言模型只能从前向上下文预测,存在严格的因果限制,这限制了模型对语言和其他非因果数据(如代码、生物序列等)中复杂模式的捕捉能力。
扩散语言模型通过支持双向建模,打破了这种因果限制,更全面地利用数据,从而提升了学习效果。
随着计算成本下降,数据的可获得性成为关键瓶颈——这正是研究团队开展 DLMs 研究的出发点。
此外,扩散目标明确要求在预训练时,对每个数据点进行多种掩码比例和组合的扰动,以便更有效地训练并获得更准确的期望估计,这也解释了为什么多次重复使用数据能带来显著的提升。
换句话说,独特数据量越大,过拟合出现得越晚;而模型规模越大,过拟合则越早发生。
除了得出上述结论,研究者还发现当模型在预训练验证集上 " 过拟合 " 时,它们在下游任务中的性能不一定会下降,反而可能会一直上升,直到训练结束。
因此,绝对 NLL 值的变化并不一定转化为其相对顺序的变化。
值得注意的是,即使在第一个验证检查点(训练 3600 步后),模型对真实答案的 NLL 值已经显著较低(即概率较高),这表明模型早期就具备优先为正确选项分配更高 logits 的能力。
然而,随着训练的继续,模型开始出现过拟合,导致真实答案和错误选项的 NLL 值均有所上升。
但有趣的是,即便出现了 " 过拟合 ",真实答案与其他选项之间的 NLL 差距依然持续扩大,表明模型的判别能力在验证损失上升的情况下仍在不断提升。
一个合理的解释是,模型反复接触有限的训练数据后,可能会对某些文本片段过于自信,从而放大了错误预测的 NLL 值。
然而,真实答案与其他选项之间的相对 NLL 差距不断拉大,表明模型的判别能力仍在持续提升。
类似的道理也适用于生成式评估(即在单个 token 级别进行选择)。因此,研究者推测,模型对非关键 token 的错误过度自信,对整体任务性能影响有限。
之后,团队将在研究中使用更大模型和更多独特数据,进一步验证这一假设。
作者介绍
曾于 2019 年任哈佛大学应用计算科学研究所助理,2022 年任阿里巴巴达摩院研究实习生。现任新加坡国立大学 SEA AI 研究员,与 Michael Shieh 教授一起工作。
现任新加坡国立大学计算机科学系助理教授,他曾在谷歌 DeepMind 与 Quoc Le 和 Thang Luong 合作过两年。
参考链接:
[ 1 ] https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac
[ 2 ] https://threadreaderapp.com/thread/1954177095435014533.html?utm_source=chatgpt.com
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考
点亮星标
科技前沿进展每日见