在 1 月 5 日的 2026 年国际消费电子展(CES)上,英伟达首席执行官黄仁勋发布了名为 " 推理上下文内存平台 "(ICMS)的全新硬件,旨在解决人工智能推理阶段爆炸式增长的数据存储需求。此举标志着 AI 硬件架构的重心正从单纯的算力堆叠向高效的上下文存储转移,NAND 闪存和 SSD 有望接棒 HBM,成为下一个关键的增长引擎。
《韩国经济日报》在 1 月 24 日的文章中介绍,黄仁勋在演讲中展示了一个被称为 " 推理上下文内存平台 "(Inference Context Memory Platform,简称 ICMS)的神秘黑色机架。这并非普通的硬件更新,而是一个旨在解决人工智能推理阶段数据瓶颈的关键创新。记者敏锐地捕捉到,这可能是继 HBM(高带宽内存)之后,存储行业的下一个爆发点。
这一平台的核心逻辑在于解决 AI 推理中的 "KV 缓存 "(键值缓存)问题。随着 AI 从单纯的学习阶段转向大规模推理应用,数据量呈爆炸式增长,现有的 GPU 显存和服务器内存架构已难以满足需求。英伟达通过引入全新的数据处理单元(DPU)和海量 SSD(固态硬盘),构建了一个庞大的缓存池,试图打破这一物理限制。
这一技术变革对于韩国存储巨头三星电子和 SK 海力士来说,无疑是一个巨大的利好消息。报道认为,随着 ICMS 的推广,NAND 闪存将迎来类似 HBM 的 " 黄金时代 "。这不仅意味着存储容量需求的激增,更预示着存储架构的根本性变革—— GPU 将可能绕过 CPU,直接与存储设备进行高速通信。
KV 缓存爆炸式增长引发存储焦虑
韩媒文章指出,黄仁勋引入 ICMS 技术的核心动因在于 "KV 缓存 " 的激增。在 AI 推理时代,KV 缓存是 AI 理解对话上下文、进行逻辑推理的关键。例如,当用户向 AI 询问关于 G-Dragon 的复杂主观问题时,AI 需要调用模型内部数据和历史对话上下文(即 KV 缓存)进行权重分配和推理,以避免重复计算和幻觉。
随着 AI 从单纯的学习转向推理,以及应用场景向多模态扩展,所需处理的数据量呈现不规则且爆炸式的增长。英伟达发现,仅靠昂贵的 HBM 或常规 DRAM 已无法容纳海量的 KV 缓存,而现有的服务器内部存储架构在应对未来推理时代时显得捉襟见肘。因此,一种能承载海量数据且保持高效访问的专用存储平台成为刚需。
DPU 驱动的 9600TB 巨量空间
据韩媒文章,ICMS 平台的核心在于将 DPU 与超大容量 SSD 相结合。文章转述英伟达介绍,该平台采用了新的 "BlueField-4"DPU,充当数据传输的 " 行政后勤官 ",以减轻 CPU 负担。一个标准的 ICMS 机架包含 16 个 SSD 托架,每个托架配备 4 个 DPU 并管理 600TB 的 SSD,使得单个机架的总容量达到惊人的 9600TB。
这一容量远超传统 GPU 机架。相比之下,一套包含 8 个机架的 VeraRubin GPU 平台,其 SSD 总容量约为 4423.68TB。黄仁勋表示,通过 ICMS 平台,虚拟层面上将 GPU 的可用内存容量从以前的 1TB 提升到了 16TB。同时,借助 BlueField-4 的性能提升,该平台实现了每秒 200GB 的 KV 缓存传输速度,有效解决了大容量 SSD 在网络传输中的瓶颈问题。
开启 NAND 闪存黄金时代
文章指出,ICMS 平台主要利用的是 SSD,这直接利好 NAND 闪存制造商。过去几年,虽然 AI 火热,但镁光灯主要集中在 HBM 上,NAND 闪存和 SSD 并没有受到同等程度的关注。
英伟达将该平台定位为介于服务器内部本地 SSD 和外部存储之间的 " 第 3.5 层 " 存储。与昂贵且耗电的 DRAM 相比,由高性能 DPU 管理的 SSD 具备大容量、速度快且断电不丢失数据的优势,成为存储 KV 缓存的理想选择。
这一架构变革直接利好三星电子和 SK 海力士。由于 ICMS 对存储密度的极高要求,市场对企业级 SSD 和 NAND 闪存的需求将大幅攀升。此外,英伟达正在推进 "Storage Next"(SCADA)计划,旨在让 GPU 绕过 CPU 直接访问 NAND 闪存,进一步消除数据传输瓶颈。
SK 海力士已迅速响应这一趋势。据报道,SK 海力士副总裁金天成透露,公司正与英伟达合作开发名为 "AI-N P" 的原型产品,计划利用 PCIe Gen 6 接口,在今年年底推出支持 2500 万 IOPS(每秒读写次数)的存储产品,并预计到 2027 年底将性能提升至 1 亿 IOPS。随着各大厂商加速布局,NAND 闪存和 SSD 有望在 AI 推理时代迎来量价齐升的新周期。
以下是韩媒文章全文,由 AI 翻译:
英伟达首席执行官黄仁勋在 2026 年国际消费电子展(CES)上发布了一个神秘的内存平台:" 推理上下文内存平台 "。今天,《科技与城市》栏目将深入探讨它究竟是什么。
关键词:KV 缓存
在 5 日(当地时间)于拉斯维加斯举行的 NVIDIA Live 大会上,NVIDIA 首席执行官黄仁勋在演讲结尾谈到了内存平台。我不禁竖起了耳朵。这会是下一个 HBM 吗?

首席执行官黄仁勋指着的是 VeraRubin 人工智能计算平台一角的一个黑色机架。这个机架,也就是我们今天故事的主角,里面存放着海量的存储空间。
首先,让我解释一下黄仁勋引入这项技术的原因。我们应该从 "KV 缓存 " 说起,黄仁勋 CEO 在官方场合经常提到它。读者朋友们,你们可能在最近关于 GPU 和 AI 硬件的文章中已经多次听到过 KV 缓存这个名字。
这个关键词在 AI 推理时代至关重要。它关乎 AI 理解对话上下文和高效计算的能力。我们举个简单的例子。假设你打开 OpenAI 的 ChatGPT 或 Google Gemini,问一个关于韩国流行歌手 G-Dragon 的问题。
如果用户问的是 G-Dragon 的音乐、时尚或事业等客观信息,AI 可以根据它学习到的信息回答。但是,聊了一会儿之后,用户突然问:" 那他为什么会成为他那个时代的‘偶像’呢?" 这就好比问了一个没有明确答案的论述题。这时,AI 就开始推理了。
这就是 KV 缓存的关键所在:键和值。首先是键。我们很容易理解,但人工智能使用键向量来清晰地识别对话上下文中问题中的 " 那个人 " 是谁,以及答案的主题和目标(键)。然后,它会利用模型内部关于 G-Dragon 以及在与用户对话过程中收集到的各种数据(值)的中间计算结果,进行权重分配、推理,最终得出答案。
如果没有 KV 缓存,如果每个问题都像第一次一样重新计算,GPU 将重复两到三次工作,从而降低效率。这可能导致人工智能出现幻觉和错误答案。然而,KV 缓存可以提高效率。基于 " 注意力计算 " 的推理,会重用从与用户的长时间对话中获得的各种数据并应用权重,速度更快,对话也更加自然。

随着人工智能行业从学习向推理转型,这种键值缓存不再仅仅是辅助存储器。此外,所需的容量也在不断增加。
首先,随着越来越多的人将生成式人工智能融入日常生活,数据量的不规则激增不可避免。随着图像和视频服务的加入,对人工智能高级推理和想象力的需求将进一步增长,数据量还将呈爆炸式增长。
随着人工智能发现新信息的能力不断提升,它会在与用户的互动过程中,在各种场景下创建大量有用的键值缓存(KV 缓存)。
面对键值缓存的爆炸式增长,NVIDIA 也对 GPU 流量进行了管理。他们将 GPU 分为两类:一类是大量生成键值缓存的 GPU,另一类是使用键值缓存的 GPU。然而,存储空间不足以存储所有这些缓存。
当然,服务器内部的内存容量很大。GPU 旁边是 HBM 内存→如果不够用,就用 DRAM 模块→如果实在不行,甚至会在服务器内部使用 SSD 固态硬盘。然而,CEO 黄仁勋似乎已经意识到,这种架构在未来的推理时代将难以驾驭。因此,他在 CES 上发布了这款黑盒子。

DPU + 超大容量 SSD = KV 缓存存储专用团队
这台黑色服务器是 " 推理上下文内存平台 ",简称 ICMS。让我们仔细看看它的规格。
首先,驱动 ICMS 的设备是 DPU,即数据处理单元。读者可能对 GPU 和 CPU 比较熟悉,但服务器的隐藏动力源—— DPU 也值得一看。

DPU(数据处理单元)就像军队中的行政后勤官。如果说 CPU 是连长,那么 GPU 就是计算突击队员。DPU 负责弹药和食物的运送,甚至处理通信和移动,使 CPU 能够做出适当的决策,而 GPU 则专注于攻击。NVIDIA 的新型 DPU"Bluefield-4" 被赋予了一项新任务:ICMS(集成内容管理系统)。现在,让我们仔细看看 ICMS 平台。这个机架总共包含 16 个 SSD 托架。

每个托架配备四个 DPU,每个 DPU 管理 150TB 的 SSD。这意味着一个托架总共有 600TB 的缓存 SSD。
这是一个相当大的存储容量。我们来比较一下。假设在 Blackwell GPU 服务器中,为了最大化 KV 缓存,我们在 SSD 放置区域安装了八个 3.84TB 的通用缓存 SSD。这样每台服务器就有 30.72TB 的 SSD,这意味着一个包含 18 台服务器的 GPU 机架的总 SSD 容量为 552.96TB。
也就是说,单个 ICMS 托架的缓存 SSD 容量可以超过一个 GPU" 机架 " 所能容纳的容量。一个机架中的 SSD 总数为 600TB x 16,即 9600TB。这比一套完整的 VeraRubin 8 个 GPU 机架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。

黄仁勋在 CES 演讲中表示:" 以前 GPU 的内存容量为 1TB,但通过这个平台,我们获得了 16TB 的存储容量。"
仔细想想,他的话似乎相当准确。一个完整的 VeraRubin 平台由八个 GPU 机架组成。每个机架有 72 个 GPU,共计 576 张存储卡。将 ICMS 的总容量 9600TB 除以 576 张存储卡,得出约 16.7TB。
虽然人们仍然担心服务器的物理距离和 SSD 的传输速度,但 BlueField 4 性能的提升缓解了这些问题。黄仁勋解释说:" 我们实现了与之前相同的每秒 200GB 的 KV 缓存传输速度。"
此外,现有的 GPU 服务器存在网络瓶颈,限制了 7.68TB 和 15.36TB 等大容量 SSD 的充分利用。这项基于 DPU 的网络改进似乎正是为了解决这些问题。
被视为 " 零 " 的 NAND 闪存的黄金时代即将到来吗?

NVIDIA 将此平台划分为 3.5 个内存组。第一组是 HBM,第二组是 DRAM 模块,第三组是服务器内部的本地 SSD,第四组是服务器外部的存储。ICMS 深入研究了介于第三组和第四组之间的神秘领域。与昂贵或耗电的 DRAM 不同,SSD 比硬盘速度更快、容量更大,即使断电也不会丢失数据(这得益于高性能 DPU),使其成为理想之选。
该平台显然为三星电子和 SK 海力士提供了巨大的商机。仅一个机架就能增加 9,600 TB 的容量,这意味着他们可以销售比现有 NVIDIA 机架多数倍的 NAND 闪存,而且这仅仅是按位计算。此外,这款产品的开发商是 NVIDIA,一家全球所有人工智能公司都梦寐以求的公司,因此商机更加巨大。

过去三年,尽管人工智能市场发展迅猛,但 NAND 闪存和固态硬盘 ( SSD ) 并未受到太多关注。这主要是因为与在 NAND 闪存发展中发挥关键作用的 HBM 相比,它们的利用率较低。NVIDIA 正从 ICMS 项目入手,筹备一个旨在进一步提升 SSD 利用率的项目。该项目是 "Storage Next"(也称为 SCADA,即 Scaled Accelerated Data Access,规模化加速数据访问)计划的一部分。目前,执行 AI 计算的 GPU 将直接访问 NAND 闪存(SSD)来获取各种数据,而无需经过 CPU 等控制单元。这是一个旨在消除 GPU 和 SSD 之间瓶颈的大胆设想。SK 海力士也已正式宣布正在开发 AI-N P,以顺应这一趋势。 SK 海力士副总裁金天成表示:"SK 海力士正与 NVIDIA 积极开展名为‘ AI-N P ’的初步实验(PoC)。"
他解释说:" 基于 PCIe Gen 6、支持 2500 万 IOPS(每秒输入 / 输出操作数)的存储原型产品有望在今年年底发布。" 他还表示:" 到 2027 年底,我们将能够生产出支持高达 1 亿 IOPS 的产品。"2500 万 IOPS 是目前固态硬盘速度的 10 倍以上。