Mamba 一作最新大发长文!
主题只有一个,即探讨两种主流序列模型——状态空间模型(SSMs)和 Transformer 模型的权衡之术。
在最受关注的语言任务上,Mamba-3B 超越同等规模的 Transformer,与两倍大的 Transformer 匹敌,因此被视为 Transformer 架构的有力挑战者。
现在,Mamba 一作将自己去年的几场演讲整合成一篇科普长文,向大众分享了如下观点:
Attention 虽强,但不是万能。
Transformer ≠最终解法,而是阶段性最优。
" 让每个 FLOPs 都有意义 " 才是架构设计的最终目标。
将 SSM 层与注意力层按一定比例混合能带来更强大的模型。
……
而且他还提前剧透,几天后将发布 " 架构领域的下一个重大进展 "。
因为他提到了一个重要观点——注意力机制的缺点实际上并不是它的二次复杂度。
要知道之前大家都认为,ChatGPT 等大模型之所以处理长文本算力消耗巨大,背后原因是 Transformer 架构中注意力机制的二次复杂度。
而现在,这样的共识或许即将被推翻 ~
不过好消息是,即将推出的新架构能够和 Transformers 兼容。
SSMs 就像人类的大脑
一上来,作者先定义了什么是状态空间模型(SSMs)?
更直观的类比如下:
Transformer 就像人类每写一个字之前,都把前面的所有字 + 输入都复习一遍,所以写的慢。
RNN 每次只参考前面固定的字数,写的快,但容易忘掉更前面的内容。
而以 Mamba 为代表的 SSMs每次参考前面所有内容的一个概括,越往后写对前面内容概括得越狠,丢掉细节保留大意。
这一工作方式有点像人类的大脑——不断接收新信息(输入),并将其压缩、总结成一个固定大小的 " 隐藏状态 "(即模型的内部记忆),一旦模型需要处理新信息时,它只与这个总结过的 " 记忆 " 互动,而不是回顾所有旧细节。
这也意味着,SSM 相比其他架构更适合处理长序列信息,而且它还具备两大优势:
第一,非常适合处理非结构化或 " 低分辨率 " 数据。实验结果表明,采用 SSM 架构的 Mamba 在语言、音频、DNA 序列模态上都实现了 SOTA。
第二,处理长序列信息时,其计算成本与序列长度呈线性关系(不会突然急剧上升),且无论输入序列有多长,模型在推理过程中所需的内存量都是固定的(适合资源有限的环境)。
按照作者总结,Mamba 的成功得益于 SSM 的三个关键要素:
(1)状态大小 ( State size )
传统 RNN 通常只有一个较小的隐藏状态,而 SSMs 通过允许隐藏状态成为一个更高维度的向量,能够存储比旧 RNN 多 N 倍的信息。
(2)状态表达能力 ( State expressivity )
早期 SSMs 以固定不变的方式更新状态,适合处理音频(信息变化规律)但不适合处理语言(信息速率变化快、需要选择性记忆)数据。
而 Mamba 通过引入 " 选择性 SSMs" 解决了这个问题,与经典 RNN" 门控机制 " 相似,它可以根据当前输入数据来决定哪些信息该记住,哪些该遗忘。
(3)训练效率 ( Training efficiency )
尽管状态更大、表达力更强会增加计算难度,但 Mamba 通过精心的参数化和利用经典的并行扫描算法来解决计算效率问题。
而且它和其他现代循环模型一样,都注重并行化、内存管理以及模型线性度以提高计算效率。
不过作者也提醒,SSMs缺乏对过去信息的精细回忆和精确检索能力。
Transformer 模型更像一个数据库
相比之下,Transformer 模型更像一个数据库——
会把收到的每一个信息(通常是经过 Tokenization 处理的 "token")都完整记录下来,并储存在一个叫做 "KV 缓存 " 的临时记忆区中。当模型需要处理新信息时,它会回顾并比较所有以前储存过的 "token"。
一方面,Transformer 模型能完美记住并精细处理序列中每一个单独的 "token"。
这使得它在处理已经过预处理、每个 "token" 都具有明确含义的数据时表现出色。如经过分词(Tokenization)处理的文本,每个词都带有语义,Transformer 就能很好地利用它们。
缺点就是计算成本高以及过于依赖高质量数据。
而针对 Tokenization,作者也探讨了它是否应该存在的问题,并得出如下观点:
尽管 Tokenization 有实用价值,但强烈建议废除。
作者认为,虽然 Tokenization 能够将序列长度缩短约 5 倍,从而显著提高语言模型的效率,但这只是表面现象。
首先,Tokenization 违背了深度学习 " 端到端 " 的自动学习精神,即模型应该从原始数据中自动学习,而不是依赖人工预处理。
更要命的是,Tokenization 在多语言和多模态应用中实施起来非常困难甚至不可能,而且还可能限制模型的 Scaling Law 和推理能力。
比如众所周知的翻车事件,模型不会数 "strawberry" 这个词中有多少个 R,就有 Tokenization 的影响。
而且已有实验证据表明,在未经 Tokenization 处理的数据上,SSMs 的表现显著优于 Transformer,即使 Transformer 被允许使用更多的计算资源。这进一步强调了 Transformer 在处理非语义化 "token" 数据时的弱点。
至此可以小结一下,SSMs 和 Transformer 模型可谓各有千秋。
混合一下性能更佳
答案是 yes!
作者发现,将两种类型的信息处理方式结合起来,可能会产生更强大的效果。
这类似于人类智能既有大脑的模糊记忆,又有外部数据库的精确检索能力。
如此也说明,Attention 并非 All You Need。
作者明确表示,他的主张不仅仅关乎计算效率(尽管简化数据可以减少注意力机制的二次复杂度开销),而是一个更强烈的声明,即 Transformer 在建模能力上存在固有的局限性。
最后,他也提到了已经为人熟知的 Scaling Law 定律。
在他看来,虽然 Transformer 目前很流行,但它们远非计算资源转化的最优选择,而要设计新的架构,一个重要衡量标准是每个 FLOPs(算力)能否物尽其用,快速转化为模型能力。
不知道新架构又能带来多大惊喜?
参考链接:
[ 1 ] https://goombalab.github.io/blog/2025/tradeoffs/
[ 2 ] https://x.com/_albertgu/status/1942615020111876248
[ 3 ] https://x.com/tri_dao/status/1942617784204087536
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见