3 月 25 日,首尔证券交易所开盘不到两小时,SK Hynix 跌近 6%,三星跌 4.8%,KOSPI 指数单日大跌 3%。同一天,美股的 Micron 跌 7%,SanDisk 跌 6.8%,Lam Research 跌 5%。
全球的内存公司迎来黑色的一天,堪比 DeepSeek 在春节引发的核爆。
而引发这波跌停潮的,是谷歌研究院发布的一篇博客文章。博客介绍了一个叫 TurboQuant 的压缩算法,说它能把 AI 的 KV Cache 存储需求降低 6 倍。
市场逻辑是,过去两年,内存芯片厂商的股价涨了 300%,靠的是一个共识:AI 越来越能干,就需要越来越多的内存,需求没有天花板。

于是,华尔街一致认定这就是类似 DeepSeek 的时刻,内存股应声大跌。
这样的阵仗也迅速传递到中文世界,大家也在讨论 Google 又带来了一个 DeepSeek 时刻。
然而,这一切其实都是一场乌龙。
不止是这篇引发血案的论文都不是今天新的成果—— TurboQuant 论文最早于 2025 年 4 月 28 日上传到 arXiv(编号 arXiv:2504.19874),至今已经 11 个月。这期间,无人谈论。

是的,又一场 FOMO 之下的诡异全民狂欢。
谷歌论文说了什么?
要理解 TurboQuant,先要理解一件事:大模型跑推理时,真正的内存大头不是模型本身,而是对话过程中产生的缓存。
每当模型处理一段对话,它需要 " 记住 " 所有历史 token 的信息。这些信息被存成 Key-Value 键值对,叫做 KV Cache,实时写入显存。上下文越长,KV Cache 越大。一个 128K context 的会话,单次推理的 KV Cache 就可以轻松超过几十 GB,对于同时服务 512 个用户的 70B 参数模型,KV Cache 消耗的显存可以是模型权重的 4 倍。
这就是为什么大模型服务商对长上下文收取额外费用,也是 "Prompt Caching" 作为独立计费项出现的原因。KV Cache 不是算力问题,是内存带宽和容量问题。
TurboQuant 解决的,正是这个问题。
传统压缩方法有一个隐藏成本:每压缩一块数据,就需要额外存储 " 量化常数 "(用来还原的元数据),每个数字额外付出 1 到 2 bit 的代价。压缩越多,这个 overhead 越不可忽视——就像买了个小行李箱,但行李箱本身就重 10 斤。
TurboQuant 用两步解决了这个问题。
第一步是随机旋转量化(TURBOQUANTmse):对向量施加随机旋转矩阵,使每个坐标无论原始分布如何,都服从集中的 Beta 分布。Transformer 注意力机制依赖的是向量之间的内积,不是每个数字的绝对值。旋转之后,坐标分布变得集中且可预测,可以用一套预计算好的最优标量量化表(Lloyd-Max 算法)逐坐标压缩,完全不需要存储 per-block 的量化常数。overhead 归零。
第二步叫 QJL(量化 Johnson-Lindenstrauss 变换):第一步之后还有一点残差误差。直接扔掉会导致内积估计产生系统性偏差,影响注意力计算的准确性。QJL 用 1 bit 处理这点残差,利用 Johnson-Lindenstrauss 变换保证估计无偏。
结果就是,KV Cache 被压缩到 3.5 bit,质量完全无损,2.5 bit 时只有轻微下降。A100 上,4-bit TurboQuant 的注意力计算速度比 PyTorch 基线快约 8 倍。

更硬的是理论部分。
作者用香农信息论等基本原理证明,任何向量量化算法能达到的理论最优是一个确定的下界,TurboQuant 距离这个下界只差约 2.7 倍的常数因子。这不是 " 我们实验上效果好 ",而是 " 理论上我们已经接近不可能更好的极限了 "。
在它所涉及到的技术领域,这确实是一篇有分量的论文,它也入选了 ICLR 2026 主会场。
但即便在同领域里,这一篇论文之后的关注度也并不突出。
论文很硬,但和内存关系不大
直到一年后的今天。
谷歌 3 月 25 日发布博客时,推特上的传播链是这样的:科技博主截图转发," 谷歌革命性算法让内存需求降低 6 倍 ",媒体跟进报道 "AI 内存需求见顶 ",韩国财经媒体把 SK Hynix、三星和 TurboQuant 放进同一个标题,开盘跌停。

TurboQuant 压缩的是推理时 GPU 显存里的 KV Cache,这是一个软件层的算法优化。
AI 对内存芯片的需求来自三块:模型权重、训练时的激活值和梯度、推理时的 KV Cache。TurboQuant 只碰第三项,前两项完全没动。
更关键的是,AI 内存需求的核心矛盾从来不是 " 存不够 ",而是 " 带宽不够 "。HBM(高速缓存)之所以是 AI 基础设施的核心,是因为 GPU 计算核心等不及数据从内存传输过来。HBM 的价值在于它每秒能传多少数据,而不只是能存多少。KV Cache 被压缩到 6 分之一,意味着传输量也降了,这实际上是在把算力和带宽解放出来,而不是在让内存变得不重要。
还有一个问题。TurboQuant 目前没有官方代码。现有的 PyTorch 和 llama.cpp 实现,都是社区开发者自己从论文里扒出来写的。vLLM、Ollama、TensorRT-LLM 等主流推理框架均未集成。实验只在 Gemma、Mistral 等小模型上验证过。70B 以上模型、MoE 架构、1M token 上下文
——这些 AI 内存需求真正爆炸的场景,论文里一个数据都没有。

你能从中看到市场今天对于 AI 的态度:极度 FOMO,越发迷茫。
在 AI 不停用震惊体刺激每个人后,人们面对一个研究成果,第一时间反应已经不再是关心研究本身。比如,在这一次的闹剧里,市场真正在定价的,不是 TurboQuant 本身,而是一个叙事:AI 内存需求可能已经见顶。
这个叙事有它的背景。美光在 3 月 18 日公布了 Q2 财报,营收 239 亿美元,远超预期,但股价在随后一周连跌四天。
市场担心的不是现在,是未来:美光 Q1 资本支出同比增长 68%,达到 53.9 亿美元,这是一个押注内存需求持续增长的巨大赌注。TurboQuant 的出现,给了市场一个 " 需求可能没那么多 " 的理由,两个担忧叠加,触发了这波卖出。
但这个推导链,在技术层面就已经断了。TurboQuant 压缩的是推理时的 KV Cache,只是 AI 内存需求的三个来源之一。
经济学里有个概念叫杰文斯悖论:煤炭蒸汽机效率提升之后,煤炭消耗总量反而增加了,因为更多人开始用蒸汽机。
TurboQuant 如果真的落地,最可能的结果是:服务商用节省下来的显存把 context window 从 128K 做到 1M,并发数从 512 做到 5000,总内存需求持平甚至上升。
这些逻辑可能会在未来被市场理解,但此刻整个社会和市场对于 AI 的讨论最大需求就是情绪价值,一个长链路的技术和产业逻辑显然提供不了情绪,只有 " 突破性算法 " 和 "DeepSeek 时刻 " 可以。
所以,我们可以期待的就是,这种乌龙只会越来越多,继续频繁的发生。