关于ZAKER Skills 合作
星途科讯 10分钟前

Spotify 性能飙升 250%,Arm 架构重塑 AI 时代云计算格局

Spotify 在评估下一代云基础设施时发现,基于 Arm 架构的 Google Cloud Axion 处理器使其工作负载性能提升了约 250%。这一案例并非孤例,而是云计算领域转向 Arm 计算浪潮的缩影。

目前,运往顶级超大规模云服务提供商的计算平台中,约半数基于 Arm 架构。AWS 数据显示,其基于 Arm 的 Graviton 处理器在过去三年部署的新 CPU 容量占比超过 50%。微软推出 Azure Cobalt,谷歌部署 Axion,NVIDIA 则通过 Grace 和 Vera 芯片确立 Arm 在 AI 基础设施中的核心地位。

从移动优先到数据中心定制

这一转变的核心驱动力是 Arm Neoverse 平台。该架构已从移动优先演变为专为云和 AI 设计的数据中心平台,允许超大规模云服务商根据实际遥测数据和生产行为,定制针对特定工作负载优化的硅片。

传统企业负载强调可预测的 CPU 利用率,而 AI 工作负载要求同时优化训练、推理、网络和存储性能,并严格控制能耗。IDC 报告指出,面向 AI 的数据中心机架功率密度已从典型的 5-10 kW 激增至 30 kW 甚至 100 kW 以上。功耗成为运营成本的关键组成部分,每瓦特性能成为首要设计指标。

这种压力促使计算、网络、存储和加速之间的界限瓦解,催生了紧密集成的系统。例如,98% 的前 1000 名 Amazon EC2 客户已在生产环境中运行 Graviton 负载;谷歌 C4A 实例相比可比 x86 系统,价格性能提升高达 65%,能源效率提升 60%。

巨头们的效率账单

迁移至 Arm 基础设施已在生产环境中带来可量化的收益:

Pinterest:通过将负载迁移至 AWS Graviton,实现计算资源成本节约 38%,关键工作负载成本节约 47%,碳排放减少 62%。

Databricks:使用基于 Arm 的 Azure Cobalt 100 虚拟机,价格性能提升高达 50%,显著改善了分析查询速度和延迟。

Atlassian:将 Jira 和 Confluence 的 3000 多个实例迁移至 Graviton,实例数量减少约 30%,吞吐量提升高达 30%,关键指标延迟下降。

Uber:将近 20% 的基础设施容量从 x86 转移至 Arm,涉及 2800 多项服务的迁移,证明了多架构共存下的效率提升。

融合式 AI 数据中心的崛起

代理式 AI 的兴起正在将数据中心重构为统一平台。在此模式下,CPU 充当控制平面,协调调度、数据移动和内存访问,而加速器处理密集计算。Arm 架构跨越这些层级,使提供商能在保持软件兼容性的同时优化整个堆栈。

NVIDIA 的 Grace Blackwell 和 Vera Rubin 平台将 Arm CPU 与高性能 GPU 结合;AWS 的 Trainium3 UltraServers 将 Graviton CPU 与 Trainium 加速器配对;谷歌最新的 TPU 超级 pod 也由 Axion CPU 供电。这些架构旨在减少瓶颈,最小化因不必要数据移动造成的能量浪费。

迁移门槛显著降低

随着生态系统的成熟,迁移复杂性已大幅降低。Arm MCP Server 等工具将兼容性检查和性能分析集成到 AI 辅助工作流中,帮助开发者验证依赖关系。目前,基于 Arm 的环境已支持主要 Linux 发行版、容器平台和现代开发框架,覆盖全球超过 2200 万开发人员。

展望未来,Arm 推出的 AGI CPU 专为下一代 AI 负载设计,结合高单线程性能与机架级效率。随着 AI 工作负载扩展,基础设施决策正从追求原始算力转向系统级的高效交付。对于云服务商和企业而言,采用 Arm 不仅是更换处理器,更是构建适应 AI 时代需求的计算基础。

【星途科讯 图文丨王宇洲】

星途科讯

星途科讯

解码海外,科技新知

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容