本文作者:龙玥
来源:硬 AI
近期,摩根大通与 Scale AI 数据科学家、Meta 前高级数据科学家 Sri Kanajan 举行电话会议,深入探讨超大规模 AI 数据中心架构趋势。
Kanajan 认为,AI 基础设施部署仍处于早期阶段,对产能过剩的担忧有限。算法进步正降低训练算力消耗,基础设施通过 " 训练转推理 " 实现高效循环利用,训练集群在新一代 GPU 推出后被快速重新配置为推理工作负载。不过,电力和冷却问题仍是扩展下一代数据中心的主要瓶颈。
算法革新:算力需求从训练向推理迁移
据摩根大通报告,近期算法突破——如混合模型(含 DeepSeek)、精度训练及策略性强化学习——显著降低了整体 AI 模型训练所需的计算量。这促使行业将优化重点转向推理环节。
Kanajan 指出,当前,业界正积极采用模型蒸馏、压缩等技术精炼模型,力求在不大幅增加原始算力投入的前提下提升性能。
基础设施:动态部署,担忧产能过剩尚早
Kanajan 认为,AI 基础设施部署仍处早期阶段,特别是考虑到云服务商对其投资的长期回报预期,当前对产能过剩的担忧有限。
一个关键的动态利用策略是:当训练周期结束且新一代 GPU 上市时,现有训练集群会被快速重新配置,以支持推理工作负载。这种 " 训练转推理 " 的生命周期转换,确保了计算资源能高效适配从密集训练到均衡推理的需求变化。
在建设模式上,训练集群通常部署在专为优化离线 GPU 利用率而新建的隔离设施(" 绿场 ");而推理集群则倾向于通过扩建现有数据中心(" 棕地 "),尤其在大都市区,以支撑持续的在线 AI 服务。
能源挑战:电力冷却成最大瓶颈
电力和冷却挑战仍是扩展下一代数据中心的主要瓶颈。
在 Kanajan 看来,随着数据中心追求更高密度和承载更密集的计算负载,电力供应和散热问题已成为下一代数据中心规模扩展的普遍性瓶颈。
超大规模企业正积极探索创新方案,如在 I 型架构设计中采用液冷技术,甚至评估核能或替代能源以实现 7x24 小时稳定供电。同时,强大的电网互联策略对保障数据中心不间断运行至关重要。
Meta 引领数据中心架构创新
在数据中心设计方面,摩根大通报告重点提及了 Meta 的创新做法。与传统超大规模厂商设计支持多租户云的 H 型布局不同,Meta 选择了专门针对内部 AI 工作负载的 I 型校园式配置。
据报告,这种设计在功耗、冷却和机架密度方面实现了改进,这些因素对支持高性能训练集群至关重要。
在硬件策略上,Meta 正在平衡品牌解决方案与白盒方案。网络方面,虽然 Arista 的强大能力在当前基础设施中仍然必不可少,但 Meta 正与 Celestica 等白盒供应商合作,长期目标是将其内部软件与白盒硬件集成。
本文来自微信公众号 " 硬 AI",关注更多 AI 前沿资讯请移步这里