
尽管目前尚未宣布任何兼容的硅片产品,且硬件预计要到 2028 年左右才会问世,但对于在 x86 平台上构建 AI 推理管道的开发者而言,标准已经冻结,软件窗口已经打开,现在正是开始规划的最佳时机。
AMD 主导话语权,终结 Intel 单一守门人模式
联合署名本身便是技术读者首先应关注的重点。数十年来,Intel 一直是新 x86 指令集扩展的守门人——由该公司率先提议、定义并推出每一项扩展,而 AMD 则随后跟进并进行适配。然而,这一模式随着 ACE 的出现而终结。
在这份白皮书列出的十一位作者中,有八位是 AMD 员工;三位 Intel 贡献者是在规范制定的后期阶段加入的。AMD 和 Intel 选择不将 Intel 现有的高级矩阵扩展(AMX)标准化,Intel 自 2023 年 1 月 Sapphire Rapids 以来一直在其至强服务器处理器中部署 AMX。ACE 是一个独立的、新的扩展,不与 AMX 向后兼容。选择构建全新架构而非采用 Intel 现有方案,表明 AMD 对 x86 发展方向的影响力已达到前所未有的高度。
引入二维瓦片寄存器,计算密度提升 16 倍
ACE 解决的核心问题是架构层面的。传统的 SIMD(单指令多数据)扩展——包括 Intel 和 AMD 的 AVX10 ——本质上是一维的,操作的是沿单一轴并行处理的向量。而矩阵乘法作为每个神经网络和大语言模型的数学基础,本质上是二维的。将这种二维问题强行塞入一维 SIMD 指令集,技术上是一种变通手段,因为 AVX 的设计初衷并非面向二维矩阵运算。
ACE 的解决方案是为 x86 架构添加八个新的二维瓦片寄存器(tile registers),每个寄存器存储一个 16×16 的 32 位值矩阵(每个瓦片宽 512 位)。ACE 指令使用外积算法在这些瓦片上运行:与 SIMD 一次处理一行不同,硬件同时计算每个行 - 列交叉点的贡献,在一次传递中以 8 位精度消耗两个 16×4 的输入矩阵。据称,这带来了比使用相同数量输入向量的等效 AVX10 乘加操作高出 16 倍的计算密度提升。
需要强调的是,这 16 倍衡量的是计算密度——即每条指令完成的数学工作量,而非端到端的应用加速比。实际性能提升将取决于芯片面积分配、内存带宽以及编译器优化程度。但在指令开销降低方面优势明显:每条 ACE 操作执行的工作远多于它所替代的 AVX10 循环,这意味着 CPU 花费在获取和解码指令上的时间更少,并能更好地利用可用的内存带宽。
在数据格式支持方面,ACE 原生支持 INT8、OCP FP8、OCP MXFP8、OCP MXINT8 和 BF16,其中包括专门为大规模大语言模型推理效率所需的精度权衡而设计的 Open Compute Project MX 块缩放格式。ACE v1 总共描述了十一种数据格式。
为何弃用 Intel AMX?覆盖全场景与所有权博弈
大多数具备技术背景的读者会问,为什么 AMD 和 Intel 不直接标准化 Intel 现有的 AMX 技术。财团选择了不同的道路,其原因揭示了 x86 未来的重要信息。
首先,Intel AMX 仅存在于至强服务器 CPU 中,从未为客户端市场设计,也不打算用于笔记本电脑或嵌入式设备。相比之下,ACE 明确旨在覆盖整个 x86 范围,从数据中心服务器到 Ryzen 移动 SoC。规范指出,ACE 硬件可以按核实现,也可以跨核心集群共享,允许供应商根据目标市场细分调整芯片面积投资,而 AMX 并不提供这种灵活性。
其次涉及所有权问题。AMX 是 Intel 的专有设计,将其标准化将在 AMD 正极力彰显自身影响力的关键时刻,赋予 Intel 对 x86 AI 加速路径的架构控制权。EAG 选择开发一种全新的、联合开发的扩展——由 AMD 担任主要作者角色——确立了没有任何一家公司拥有该标准的事实。开发人员编写 ACE 优化代码时,写的是 x86 代码,而非 Intel 代码。
TIRIAS Research 的高级分析师 Jim McGregor 指出:"CPU 永远不可能比 GPU/AI 加速器更高效,但它允许你将一些 AI 工作负载卸载到 CPU 上,或者在没有 GPU 或 AI 加速器的应用程序(如嵌入式 / 边缘应用)中使用 CPU 进行 AI 工作负载处理。"ACE 并不是要让 CPU 取代 Nvidia 的张量核心,而是在全球安装基数最大的 x86 平台上建立一个一致、无碎片化的 AI 计算基线。
告别碎片化灾难,软件生态先行
x86 指令集扩展的历史充满了碎片化的灾难。Intel 于 2013 年提出 AVX-512,但 AMD 多年后才采用且子集不同,Intel 甚至在混合架构中因能效核缺乏支持而禁用该指令,导致开发者普遍回避。ACE 的联合署名模式正是为了防止这种结果。通过联合标准化该扩展,EAG 创造了一个开发者可以放心投资的目标。
对于务实思考 ACE 适用场景的工作负载架构师而言,McGregor 的观点指向了三类应用程序:边缘推理、嵌入式系统以及对隐私敏感的端侧处理。汽车系统、工业机器人、医疗设备和卫星硬件中的嵌入式计算往往无法容纳独立 GPU。对于延迟敏感任务的小型模型推理,受益于驻留在 CPU 上的执行,避免了数据在分离加速器之间传输的开销。
时间表:软件窗口已开,硬件静待 2028
截至规范发布,尚未宣布任何支持 ACE 硬件的 x86 处理器。AMD 当前的路线图引用了 Zen 7 微架构的 " 新矩阵引擎 " 和 "AI 数据格式扩展 ",预计大约在 2028 年到来,分析人士将其解读为可能的 ACE 实现。无论是目前正在 EPYC Venice 服务器 CPU 中量产的 Zen 6,还是 Intel 即将到来的 Nova Lake,均未提及 ACE 支持。
现在可用的是指令集合约本身。软件启用工作已经开始:深度学习和高性能计算库的集成正在进行中,包括低精度 GEMM 内核和 LLM 特定原语,以及 Python 库(如 NumPy 和 SciPy)和主要机器学习框架 PyTorch 和 TensorFlow 的集成。这一工程序列是有意的,给予编译器团队、框架维护者和库作者大约两年的时间在产品上市前达到成熟度,以避免重蹈 AVX-512 时代软件就绪状态滞后于硬件的覆辙。
常见问题解答
ACE 会取代 Intel 现有的 AMX 扩展吗?
随着时间的推移,几乎肯定会。ACE 是一个新的、联合标准化的扩展,不与 Intel 的高级矩阵扩展(AMX)向后兼容。AMD 从未实施过 AMX,EAG 决定将 ACE 作为全新标准开发而非扩展 AMX,这意味着 ACE 旨在成为 x86 矩阵加速的长期标准,用一个统一的、联合拥有的标准来取代它。
ACE 如何在没有 GPU 的情况下在 CPU 上运行矩阵乘法?
ACE 为 x86 架构添加了八个二维瓦片寄存器,每个寄存器存储一个值的 16×16 矩阵。使用外积算法,ACE 指令在一次硬件传递中计算矩阵乘法中每个行 - 列交叉点的贡献,而不是像传统 SIMD 指令那样逐行迭代。这带来了比等效 AVX10 乘加操作高 16 倍的计算密度优势,使 x86 CPU 能够更高效地运行 AI 推理,特别是小型模型、低延迟任务以及没有独立 GPU 的嵌入式系统。
支持 ACE 的 CPU 何时出货?
尚未宣布任何具有 ACE 硬件的 x86 处理器。基于 AMD 公开声明的路线图,其中引用了 Zen 7 微架构的 " 新矩阵引擎 ",最早的可能到达时间约为 2028 年。Intel 对应的时间表尚未披露。ACE 规范现已可用,与 PyTorch、TensorFlow、NumPy 和 HPC 库的软件集成已在进行中,该标准的设计使得软件生态系统可以在硬件上市前成熟。
ACE 是否使 x86 CPU 在与 Nvidia GPU 的 AI 工作负载竞争中具有竞争力?
不会,规范也没有做出此类声称。对于最具挑战性的 AI 工作负载,CPU 永远无法匹配 GPU 或专用 AI 加速器的效率。ACE 的目的不同,它为整个 x86 安装基础建立了一致的高密度矩阵计算能力,针对那些 CPU 已经运行计算但效率低下的 AI 工作负载类别——边缘推理、对隐私敏感的端侧处理以及没有 GPU 选项的嵌入式系统。
【星途科讯 图文丨略略 首发于 ZAKER 科技,转载请注明出处】