APP下载

关于ZAKER

合作

钛媒体 51分钟前

缩减 6 倍 AI 内存、闪迪美光下挫：拆解谷歌 TurboQuant 背后的软硬件博弈

美东时间 3 月 24 日，谷歌研究院（Google Research）发布了一项名为 TurboQuant 的免训练（training-free）AI 内存压缩算法。

官方技术文件显示，该算法能够在不损失模型精度的前提下，将大语言模型推理阶段的键值缓存（KV Cache）内存占用缩减至少 6 倍，并在特定基准测试中相较 32 位未量化模型实现最高 8 倍的性能提升。这项极度压缩技术，直接改变了大型 AI 模型在显存资源调配上的技术预期。

技术发布的连锁反应迅速传导至资本市场。周三美股交易时段，存储芯片板块出现整体下挫，闪迪一度大跌 6.5%，美光科技跌幅约 4%，希捷科技跌超 5%。

市场情绪的短期波动主要源于单一维度的推演：若底层算法能将上下文内存需求大幅缩减，现阶段价格高昂且供不应求的高带宽内存（HBM）及企业级存储芯片的长期出货量预期可能会面临修正。

PolarQuant 与 QJL 的协同机制

TurboQuant 的核心突破在于解决了传统向量量化过程中伴随的内存额外开销问题。传统方案为了保证精度，往往需要为每个数据块额外存储全精度的量化常数。该算法采取了两阶段处理架构：

首先，利用 PolarQuant 技术进行主体压缩。该方法放弃了传统的笛卡尔坐标系，将数据向量转换为极坐标，把数据分离为代表强度的半径和代表方向的角度。这种几何结构的简化彻底消除了传统方法的额外内存开销。

随后，引入量化约翰逊 - 林登施特劳斯（QJL）算法作为数学误差校正层。TurboQuant 使用极低位宽（仅 1 bit）对第一阶段留下的微小误差套用 QJL 算法，消除偏差以确保最终注意力分数的精准。

测试数据显示，在此机制下，TurboQuant 能够将 KV 缓存压缩至 3.5 比特甚至 3 比特，在 " 大海捞针 "（Needle In A Haystack）等长文本基准测试中，依然保持了 100% 的检索召回率。同时，其 " 数据无感知 "（data-oblivious）特性使其无需进行特定的预处理或微调即可直接部署。

参照系差异与权重的刚性需求

在评估该算法的实际商业穿透力时，需剥离理论数据的极限值。一方面，谷歌声称的 " 最高 8 倍性能提升 " 是建立在与未量化的 32 位（32-bit）基础数据相对比的前提下。而在当前实际的推理产业环境中，16 位乃至 8 位、4 位量化已广泛普及，生产环境中的绝对效率跃升幅度将低于官方的基准对比数据。

另一方面，算法的作用域具有严格限定。TurboQuant 仅针对推理阶段的 KV 缓存生效，它有效缓解了超长上下文带来的显存线性增长问题，但并不压缩模型权重（Model Weights）本身的物理显存占用。这意味着，该算法能让同等显存容量的 GPU 支撑更长的上下文对话或更高的并发吞吐量，但依然无法改变部署千亿参数大模型时对底层硬件容量的基本门槛。

从行业视角来看，单次查询的内存开销与推理成本大幅下降，使得边缘侧设备或消费级显卡能够承载此前仅限云端运行的长文本任务。这种软件优化对硬件依赖的对冲，重新定义了 AI 应用落地的成本曲线。

从宏观算力供需关系推演，这也可能引发典型的 " 杰文斯悖论 "（Jevons Paradox）：

资源利用效率的提升，反而会因使用成本的降低而激发更庞大的长尾应用需求。

TurboQuant 降低了长文本推理的存储门槛，可能刺激 AI 多模态应用在企业端和消费端的规模化铺开。系统并发量的急剧上升，最终带来的全球算力基础设施与存储需求总量，未必会呈现单边缩减。（本文首发钛媒体 APP，作者 | 硅谷 Tech_news，编辑 | 焦燕）

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

缩减 6 倍 AI 内存、闪迪美光下挫：拆解谷歌 TurboQuant 背后的软硬件博弈

宙世代

一起剪

相关阅读

AI时代的营销变局：品牌主如何争夺信息话语权

雷蛇2026款灵刃16发布：14.9mm超薄机身 顶配Ultra 9+RTX 5090

淘天集团推出“AI生产力计划”，向实习生全员开放

2599元 REDMI Pad 2 Pro 5G开售：支持双卡双5G、联通eSIM

OpenAI关停Sora，AI开始“算账”

「傲意科技」获1.5亿元C轮融资，海外收入增速反超国内

国产AI背后的“电费护城河”：广东绿电撑起算力集群最强“底座”

人口、电力等3-4倍于美国 且大家更愿吃苦！马斯克：中国有望在AI和制造业全球称霸

正式回归OPPO体系 真我商城宣布4月25日停止运营

增势强劲！我国5G移动电话用户达12．35亿户

行业首次，华境S通关80km/h侧碰后垂直高度15米高坡坠落翻滚挑战

向智而行，深耕本土：对话佳能中国负责人，解码2026文印新势能

6.78亿月活！雷军祝贺WPS，以后要集中精力搞小米

生态共生，价值共荣：荣耀YOYO智能体与中国移动灵犀智能体的双向赋能之路

从卖寝具到提供睡眠系统服务：慕思的“用户终身价值”棋局

最新评论

钛媒体

热门推荐

企业资讯

热门订阅 换一批

AI价值官

雷蛇2026款灵刃16发布：14.9mm超薄机身顶配Ultra 9+RTX 5090

人口、电力等3-4倍于美国且大家更愿吃苦！马斯克：中国有望在AI和制造业全球称霸

正式回归OPPO体系真我商城宣布4月25日停止运营

热门订阅换一批