关于ZAKER 合作
芯东西 35分钟前

亚马逊最强服务器 CPU 登场!3nm、192 核、暴增 L3 缓存,苹果力挺

L3 缓存容量飙到 5.3 倍。

作者 | ZeR0

编辑 | 漠影

芯东西拉斯维加斯 12 月 4 日报道,刚刚,在年度云计算盛会 AWS re:Invent 上,全球最大云计算巨头亚马逊云科技(AWS)发布第五代自研服务器 CPU ——Graviton5

Graviton5 在单个封装中集成192 个核心,核心数较上一代翻倍,核心架构升级为 Neoverse V3,并优化了内存系统,搭配大容量缓存,支持 DDR5-8800 内存,IO 系统支持 DDR5 内存,且是亚马逊云科技服务器集群中首款支持 PCIe Gen 6 的 CPU。

该芯片配备 2MB 二级缓存(L2 Cache);三级缓存(L3 Cache)容量达到前代产品的5.3 倍,达到 192MB,这意味着每个核心能获得高达 2.6 倍的三级缓存,带来更优的整体性能和稳定性。

在 AWS re:Invent 大会期间,亚马逊云科技副总裁、杰出工程师 Ali Saidi 与芯东西等少数媒体进行了深入交流。Saidi 告诉芯东西,Graviton5 采用3nm制程,已掌握成熟的电压控制技术,主频适中,同时通过系统层面的创新优化散热,例如采用裸片冷却技术,去除 CPU 顶盖,减少顶盖带来的热阻,直接在 CPU 上安装散热器,确保核心能够有效散热,无需担心散热问题。

据 Saidi 透露,亚马逊云科技正与内存供应商合作,推动现有产品支持更高频率,对不同工作负载的测试表明,这是一套平衡的系统,能够为核心提供充足的内存带宽,同时实现显著的性能提升。

亚马逊在 2018 年发布了首款 Graviton 处理器,2019 年推出 Graviton2,2021 年推出 Graviton3,2023 年发布 Graviton4。每一代产品都力求实现 25%~30% 的性能提升,Graviton5 也不例外——每个核心性能比上一代提升约25%

亚马逊云科技针对多种工作负载进行了测试:在 CPU 密集型机器学习场景中,Graviton5 比 Graviton4 快 32%;在 Nginx 等负载均衡场景中,速度提升 27%;作业类应用速度提升 30% 至 40%;数据库场景中,不同类型数据库的性能普遍提升约 30%。

亚马逊云科技计算与机器学习服务副总裁 Dave Brown 在演讲中分享了一些 Graviton5 早期客户的测试数据:Airbnb 性能提升高达 25%,Atlassian 性能提升 30%、延迟降低 20%,Honeycomb.io 延迟降低 25%、每核心性能提升 36%,SAP 的 SAP HANA 分析查询性能提升 60%。

苹果云系统与平台副总裁 Payam Mirrashidi 也来到现场为 AWS Graviton CPU 站台。

他分享说,目前,苹果每天通过运行在亚马逊云科技和 Graviton 上的 Swift 应用处理数十亿次请求。将核心服务用 Swift 重构并迁移到 Graviton 后,苹果实现了 40% 的性能提升和 30% 的成本降低。从 x86 到 Graviton 的迁移过程极为顺畅,几乎可以直接替代 Java 环境。苹果早在十多年前就将移动设备迁移到 Arm 架构。

" 如今,迁移到基于 Arm 的 Graviton,我们再次收获了基础设施效率提升的巨大价值。"Mirrashidi 说," 我们迫不及待地想看到大家用 AWS Graviton 和 Swift 创造出更多精彩成果。"

据 Saidi 分享,亚马逊云科技与 Arm 在核心定义方面密切合作:Graviton2 采用 Neoverse N1 核心,Graviton3 采用 Neoverse V1 核心,Graviton4 采用 Neoverse V2 核心,Graviton5 采用 Neoverse V3 核心。每一代都通过与 Arm 合作,确保核心满足需求,进而为客户带来显著性能收益。

"Graviton 的成功证明,通过授权 Arm IP,我们能够打造出具有行业竞争力的系统。未来,我们将继续专注于这一模式,持续为客户创造价值。"Saidi 说。

基于 Graviton5 的M9g 实例(预览版)今日同步发布,相比 M8g 实例性能提升高达 25%,是目前 Amazon EC2 中性价比最高的实例。

Saidi 在媒体沟通会期间分享说,该实例每核心配备 4GB 内存,将于 2026 年正式全面可用,后续还将拓展更多实例类型。

以 Graviton4 为例,亚马逊云科技提供的实例最高支持 3TB 内存、190 个核心、600Gbps 网络带宽和 100TB 存储容量,涵盖多种实例类型,可满足客户各类工作负载需求。

目前 Graviton5 仅推出一款实例类型,未来将拓展更多选择。

亚马逊云科技公用计算高级副总裁 Peter DeSantis 在演讲中谈道,亚马逊云科技云服务的核心属性包括安全性、可用性、弹性、成本等,亚马逊云科技正在大规模投资数据中心、电力和容量建设,以支持 AI 转型,同时大力投入降低模型构建和工作负载运行的成本。如今亚马逊云科技的芯片系列包括 Graviton 专用服务器 CPU 和 Trainium AI 训练芯片等。

亚马逊云科技计算与机器学习服务副总裁 Dave Brown 回顾了亚马逊云科技造芯历程和设计思路的演变。据他分享,Nitro 系统改变了人们对云计算可能性的认知,证明只要能掌控芯片、硬件和系统架构,就能实现商用硬件无法企及的性能和效率提升。在深入研究 Nitro 系统的过程中,亚马逊云科技自然产生了一个疑问:

" 既然定制芯片能同样改善网络和存储性能,为什么不能将其应用于计算领域?"

于是,亚马逊云科技重新思考:如果专门为云工作负载设计一款服务器处理器 —— 不是适配、不是改造,而是从零开始为云原生场景打造——会是什么样子?

这就是 Graviton 处理器的由来。

这款全新设计的处理器,核心目标是为客户在云中日常运行的工作负载提供最优性价比。

如今,各行各业的企业都在通过 Graviton 获得更高性能和更低成本:Adobe 将碳排放减少 37%,Epic Games 借助它支撑全球大规模低延迟游戏工作负载,F1 通过 Graviton 使模拟运算速度提升 40%,Pinterest 降低了 47% 的成本,SAP 的云原生 SAP 应用性能提升 35%。

这些正在运行的生产系统,通过 Graviton 实现了更快、更环保、更经济的运行。

其软件合作伙伴通过优化编译器、改进运行时、完善库文件,并在平台上全面支持 Graviton。围绕 Graviton 形成的长期架构和行业协作生态还在持续成长和成熟。

要在 Amazon EC2 中实现最优性价比,需要关注每一个层级。除了提高芯片性能外,这还涉及系统的构建和运行方式。

由于亚马逊云科技同时设计处理器和服务器,它能够实现全栈优化,其中就包括客户不常关注的散热环节。

大多数处理器采用传统散热方案:芯片之上是热界面材料,然后是保护顶盖,再覆盖一层热界面材料,最后是散热器。这种方案可靠且易于制造,几十年来一直是行业标准,但亚马逊云科技深入分析后发现,其物理原理存在优化空间。

热传递的物理逻辑很简单:散热路径中的每一层都会减缓热量传导,阻力越大,结温越高;而高温会增加漏电率,漏电率上升又会导致功耗增加,低效问题会迅速累积。

传统 CPU 采用这种设计,是因为需要适配多种系统、形态和工具方案,顶盖能提供稳定的接口。

但由于亚马逊云科技掌控着 Graviton 的整个系统,有机会尝试不同思路。

因此,它没有遵循传统模式,而是设计了 " 直接贴合芯片 " 的散热方案:移除顶盖和对应的热界面材料,减少热阻,让热量传导更高效。这需要精密制造和精心选材,但成果显著——风扇功耗降低了 33%。

提升系统效率只是实现卓越性能的一部分,芯片本身必须一代比一代更出色。Graviton 的研发是长期且持续迭代的过程:每一代产品都会拓展支持的工作负载类型,而新工作负载的出现会让亚马逊云科技发现新的瓶颈,进而指导下一代产品的研发,形成持续优化的循环。

每一款 Graviton 处理器都基于前代成果,不断推动架构向前发展。

亚马逊云科技针对实际应用性能优化 Graviton。在 Graviton3 时代,亚马逊云科技发现二级缓存(L2 Cache)缺失对实际工作负载性能有明显影响。

缓存是 CPU 性能最重要的影响因素之一,因此成为其核心优化方向。缓存的作用是存储频繁访问的数据,若数据不在缓存中,处理器就必须访问主内存,速度会慢得多。

现代 CPU 采用三级缓存架构:一级缓存(L1)最快但容量最小,二级缓存(L2)容量更大但速度稍慢,三级缓存(L3)容量最大且为所有核心共享。

如果三级缓存都未命中,就必须访问 DRAM,耗时可达 100ns。对 CPU 周期而言,这是很长的时间。

因此,大容量缓存至关重要:能将更多数据留在核心附近,减少慢速内存访问。

基于此,Graviton4 将每个核心的二级缓存容量从 1MB 翻倍至2MB,这也是其相比 Graviton3 性能提升高达30%的原因之一。

二级缓存扩容显著降低了二级缓存缺失率。

但 CPU 设计始终需要权衡取舍:Graviton4 的核心数增加了 15%,三级缓存仅增加 12%。

这对于当时要支持的纵向扩展工作负载是合适的平衡,但更多核心共享相对少量增加的三级缓存,导致每个核心能分配到的三级缓存反而减少,进而使三级缓存缺失率上升。这就是芯片设计中需要不断评估的权衡问题。

此外,亚马逊云科技还进行了一项重大架构调整:在两个 CPU 之间添加一致性链路,使其能为数据库和大型分析工作负载提供最多 192 个核心。

但链路连接会带来额外开销:当一个核心需要访问另一个 CPU 上的内存时,请求必须通过互连链路传输,增加延迟、协议开销,有时还会出现排队,在某些场景下,耗时可能达到原来的 3 倍。

因此,其团队思考:能否在单个封装中实现 192 个核心,同时让所有核心都能均匀、快速地访问内存,并配备更大容量的缓存?

这就是 Graviton5 设计的来源。

如今,使用亚马逊自研服务器 CPU Graviton 系列的客户数量已超过 90000 家,实现数百万颗 CPU 量产。

其中包括前 1000 名 Amazon EC2 大客户中的 98%,涵盖初创企业、大型企业等不同规模的客户,部分客户的大部分甚至全部计算工作都运行在 Graviton 上。这些客户包括 Adobe Analytics、SAP、亚马逊自身、Stripe、Pinterest、Airbnb 等知名企业。

多年来,Graviton 一直是 Amazon EC2 中性价比最高的选择,让客户 " 以更少成本实现更多价值 "。

客户采用 Graviton 后,通常有两种方式转化性能提升的价值:一种是改善应用延迟,对于延迟敏感型场景,Graviton 带来的更高性能和更低延迟,能直接推动业务成果优化;另一种是在保持服务等级协议(SLA)或延迟不变的前提下,提升每秒事务数或请求数。

对于拥有大规模服务器集群的客户而言,如果每个实例的处理能力提升 25%,意味着服务器数量可减少 25%,性能提升直接转化为成本降低。

再加上 Graviton 本身相比 x86 产品的成本优势,客户能获得显著的性价比提升。

相关标签
芯东西

芯东西

芯东西专注报道芯片、半导体产业创新。

订阅

觉得文章不错,微信扫描分享好友

扫码分享