
作者 | ZeR0
编辑 | 漠影
芯东西拉斯维加斯 12 月 4 日报道,刚刚,在年度云计算盛会 AWS re:Invent 上,全球最大云计算巨头亚马逊云科技(AWS)发布第五代自研服务器 CPU ——Graviton5。

该芯片配备 2MB 二级缓存(L2 Cache);三级缓存(L3 Cache)容量达到前代产品的5.3 倍,达到 192MB,这意味着每个核心能获得高达 2.6 倍的三级缓存,带来更优的整体性能和稳定性。
在 AWS re:Invent 大会期间,亚马逊云科技副总裁、杰出工程师 Ali Saidi 与芯东西等少数媒体进行了深入交流。Saidi 告诉芯东西,Graviton5 采用3nm制程,已掌握成熟的电压控制技术,主频适中,同时通过系统层面的创新优化散热,例如采用裸片冷却技术,去除 CPU 顶盖,减少顶盖带来的热阻,直接在 CPU 上安装散热器,确保核心能够有效散热,无需担心散热问题。
据 Saidi 透露,亚马逊云科技正与内存供应商合作,推动现有产品支持更高频率,对不同工作负载的测试表明,这是一套平衡的系统,能够为核心提供充足的内存带宽,同时实现显著的性能提升。
亚马逊在 2018 年发布了首款 Graviton 处理器,2019 年推出 Graviton2,2021 年推出 Graviton3,2023 年发布 Graviton4。每一代产品都力求实现 25%~30% 的性能提升,Graviton5 也不例外——每个核心性能比上一代提升约25%。
亚马逊云科技针对多种工作负载进行了测试:在 CPU 密集型机器学习场景中,Graviton5 比 Graviton4 快 32%;在 Nginx 等负载均衡场景中,速度提升 27%;作业类应用速度提升 30% 至 40%;数据库场景中,不同类型数据库的性能普遍提升约 30%。
亚马逊云科技计算与机器学习服务副总裁 Dave Brown 在演讲中分享了一些 Graviton5 早期客户的测试数据:Airbnb 性能提升高达 25%,Atlassian 性能提升 30%、延迟降低 20%,Honeycomb.io 延迟降低 25%、每核心性能提升 36%,SAP 的 SAP HANA 分析查询性能提升 60%。

他分享说,目前,苹果每天通过运行在亚马逊云科技和 Graviton 上的 Swift 应用处理数十亿次请求。将核心服务用 Swift 重构并迁移到 Graviton 后,苹果实现了 40% 的性能提升和 30% 的成本降低。从 x86 到 Graviton 的迁移过程极为顺畅,几乎可以直接替代 Java 环境。苹果早在十多年前就将移动设备迁移到 Arm 架构。

据 Saidi 分享,亚马逊云科技与 Arm 在核心定义方面密切合作:Graviton2 采用 Neoverse N1 核心,Graviton3 采用 Neoverse V1 核心,Graviton4 采用 Neoverse V2 核心,Graviton5 采用 Neoverse V3 核心。每一代都通过与 Arm 合作,确保核心满足需求,进而为客户带来显著性能收益。
"Graviton 的成功证明,通过授权 Arm IP,我们能够打造出具有行业竞争力的系统。未来,我们将继续专注于这一模式,持续为客户创造价值。"Saidi 说。
基于 Graviton5 的M9g 实例(预览版)今日同步发布,相比 M8g 实例性能提升高达 25%,是目前 Amazon EC2 中性价比最高的实例。

以 Graviton4 为例,亚马逊云科技提供的实例最高支持 3TB 内存、190 个核心、600Gbps 网络带宽和 100TB 存储容量,涵盖多种实例类型,可满足客户各类工作负载需求。
目前 Graviton5 仅推出一款实例类型,未来将拓展更多选择。
亚马逊云科技公用计算高级副总裁 Peter DeSantis 在演讲中谈道,亚马逊云科技云服务的核心属性包括安全性、可用性、弹性、成本等,亚马逊云科技正在大规模投资数据中心、电力和容量建设,以支持 AI 转型,同时大力投入降低模型构建和工作负载运行的成本。如今亚马逊云科技的芯片系列包括 Graviton 专用服务器 CPU 和 Trainium AI 训练芯片等。

" 既然定制芯片能同样改善网络和存储性能,为什么不能将其应用于计算领域?"
于是,亚马逊云科技重新思考:如果专门为云工作负载设计一款服务器处理器 —— 不是适配、不是改造,而是从零开始为云原生场景打造——会是什么样子?
这就是 Graviton 处理器的由来。
这款全新设计的处理器,核心目标是为客户在云中日常运行的工作负载提供最优性价比。
如今,各行各业的企业都在通过 Graviton 获得更高性能和更低成本:Adobe 将碳排放减少 37%,Epic Games 借助它支撑全球大规模低延迟游戏工作负载,F1 通过 Graviton 使模拟运算速度提升 40%,Pinterest 降低了 47% 的成本,SAP 的云原生 SAP 应用性能提升 35%。
这些正在运行的生产系统,通过 Graviton 实现了更快、更环保、更经济的运行。
其软件合作伙伴通过优化编译器、改进运行时、完善库文件,并在平台上全面支持 Graviton。围绕 Graviton 形成的长期架构和行业协作生态还在持续成长和成熟。

由于亚马逊云科技同时设计处理器和服务器,它能够实现全栈优化,其中就包括客户不常关注的散热环节。
大多数处理器采用传统散热方案:芯片之上是热界面材料,然后是保护顶盖,再覆盖一层热界面材料,最后是散热器。这种方案可靠且易于制造,几十年来一直是行业标准,但亚马逊云科技深入分析后发现,其物理原理存在优化空间。
热传递的物理逻辑很简单:散热路径中的每一层都会减缓热量传导,阻力越大,结温越高;而高温会增加漏电率,漏电率上升又会导致功耗增加,低效问题会迅速累积。

但由于亚马逊云科技掌控着 Graviton 的整个系统,有机会尝试不同思路。
因此,它没有遵循传统模式,而是设计了 " 直接贴合芯片 " 的散热方案:移除顶盖和对应的热界面材料,减少热阻,让热量传导更高效。这需要精密制造和精心选材,但成果显著——风扇功耗降低了 33%。





如果三级缓存都未命中,就必须访问 DRAM,耗时可达 100ns。对 CPU 周期而言,这是很长的时间。







因此,其团队思考:能否在单个封装中实现 192 个核心,同时让所有核心都能均匀、快速地访问内存,并配备更大容量的缓存?
这就是 Graviton5 设计的来源。
如今,使用亚马逊自研服务器 CPU Graviton 系列的客户数量已超过 90000 家,实现数百万颗 CPU 量产。
其中包括前 1000 名 Amazon EC2 大客户中的 98%,涵盖初创企业、大型企业等不同规模的客户,部分客户的大部分甚至全部计算工作都运行在 Graviton 上。这些客户包括 Adobe Analytics、SAP、亚马逊自身、Stripe、Pinterest、Airbnb 等知名企业。
多年来,Graviton 一直是 Amazon EC2 中性价比最高的选择,让客户 " 以更少成本实现更多价值 "。
客户采用 Graviton 后,通常有两种方式转化性能提升的价值:一种是改善应用延迟,对于延迟敏感型场景,Graviton 带来的更高性能和更低延迟,能直接推动业务成果优化;另一种是在保持服务等级协议(SLA)或延迟不变的前提下,提升每秒事务数或请求数。
对于拥有大规模服务器集群的客户而言,如果每个实例的处理能力提升 25%,意味着服务器数量可减少 25%,性能提升直接转化为成本降低。
再加上 Graviton 本身相比 x86 产品的成本优势,客户能获得显著的性价比提升。
