关于ZAKER 合作
全天候科技 10小时前

摩根大通专家访谈:AI 数据中心“产能过剩”了吗?训练和推理基建如何部署?

本文作者:龙玥

来源:硬 AI

近期,摩根大通与 Scale AI 数据科学家、Meta 前高级数据科学家 Sri Kanajan 举行电话会议,深入探讨超大规模 AI 数据中心架构趋势。

Kanajan 认为,AI 基础设施部署仍处于早期阶段,对产能过剩的担忧有限。算法进步正降低训练算力消耗,基础设施通过 " 训练转推理 " 实现高效循环利用,训练集群在新一代 GPU 推出后被快速重新配置为推理工作负载。不过,电力和冷却问题仍是扩展下一代数据中心的主要瓶颈。

算法革新:算力需求从训练向推理迁移

据摩根大通报告,近期算法突破——如混合模型(含 DeepSeek)、精度训练及策略性强化学习——显著降低了整体 AI 模型训练所需的计算量。这促使行业将优化重点转向推理环节。

Kanajan 指出,当前,业界正积极采用模型蒸馏、压缩等技术精炼模型,力求在不大幅增加原始算力投入的前提下提升性能。

基础设施:动态部署,担忧产能过剩尚早

Kanajan 认为,AI 基础设施部署仍处早期阶段,特别是考虑到云服务商对其投资的长期回报预期,当前对产能过剩的担忧有限。

一个关键的动态利用策略是:当训练周期结束且新一代 GPU 上市时,现有训练集群会被快速重新配置,以支持推理工作负载。这种 " 训练转推理 " 的生命周期转换,确保了计算资源能高效适配从密集训练到均衡推理的需求变化。

在建设模式上,训练集群通常部署在专为优化离线 GPU 利用率而新建的隔离设施(" 绿场 ");而推理集群则倾向于通过扩建现有数据中心(" 棕地 "),尤其在大都市区,以支撑持续的在线 AI 服务。

能源挑战:电力冷却成最大瓶颈

电力和冷却挑战仍是扩展下一代数据中心的主要瓶颈。

在 Kanajan 看来,随着数据中心追求更高密度和承载更密集的计算负载,电力供应和散热问题已成为下一代数据中心规模扩展的普遍性瓶颈。

超大规模企业正积极探索创新方案,如在 I 型架构设计中采用液冷技术,甚至评估核能或替代能源以实现 7x24 小时稳定供电。同时,强大的电网互联策略对保障数据中心不间断运行至关重要。

Meta 引领数据中心架构创新

在数据中心设计方面,摩根大通报告重点提及了 Meta 的创新做法。与传统超大规模厂商设计支持多租户云的 H 型布局不同,Meta 选择了专门针对内部 AI 工作负载的 I 型校园式配置。

据报告,这种设计在功耗、冷却和机架密度方面实现了改进,这些因素对支持高性能训练集群至关重要。

在硬件策略上,Meta 正在平衡品牌解决方案与白盒方案。网络方面,虽然 Arista 的强大能力在当前基础设施中仍然必不可少,但 Meta 正与 Celestica 等白盒供应商合作,长期目标是将其内部软件与白盒硬件集成。

本文来自微信公众号 " 硬 AI",关注更多 AI 前沿资讯请移步这里

最新评论

没有更多评论了
全天候科技

全天候科技

提供专业快速完整的科技商业资讯

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容