关于ZAKER 合作
钛媒体 12小时前

百万倍算力增长的背后,AIDC 如何建设才能“跟上需求”?

前不久,华为发布的《智能世界 2035》和《全球数智化指数 2025》报告中指出,随着大模型的发展,AI 智能体将从执行工具演进为决策伙伴,驱动产业革命。到 2035 年,全社会的算力总量将增长 10 万倍,算力增长的背后,是对新一代算力基础设施产业发展的挑战,但在这过程中,同样也伴随着不小的机遇。

AI 需求暴增,数据中心建设面临挑战

算力需求的激增已经不仅仅是停留在预测层面,根据国家数据局披露的信息显示,2024 年初中国日均 Token 消耗量为 1000 亿,到 2024 年底已增长至 3000 亿量级。而这个数字到了今年 6 月则是达到惊人的 30 万亿的量级,与 2024 年初的 1000 亿相比,增长 300 多倍。

此外,IDC 报告显示,2024 年全年中国公有云大模型调用量为 114 万亿 Tokens,而 2025 年上半年即飙升至 536.7 万亿,反映出 AI 应用进入规模化爆发阶段。

而 AI 应用的爆发,自然也带动智能算力需求的激增,在这背后,是对底层算力基础设施带来的考验,而 AI 也正以 " 算力吞噬者 " 的姿态重构数字基础设施格局,全球 20 亿活跃 AI 用户产生的海量数据处理需求,使得 AIDC 从 " 辅助设施 " 升级为 " 核心生产力 "。

在 AI 时代,传统的数据中心建设显然已经不能满足当前智算对于底层设施的需求,华为发布的《智能世界 2035》和《全球数智化指数 2025》报告中明确,计算领域将突破传统冯诺依曼架构的束缚,在计算架构、材料器件、工程工艺、计算范式四大核心层面实现颠覆性创新,最终催生新型计算的全面兴起。

在华为中国数字能源数据中心能源拓展部部长石忆看来,算力增长的同时,也对基础设施造成了极大的冲击," 当前,智算中心建设主要面临安全、弹性、高功率、高能耗等挑战。除此之外,作为长期运营的重资产项目,数据中心建设还需要适度超前。"

安全方面,AI 大模型训练对算力连续性的要求较传统通算提升两个量级:10MW 智算中心的算力密度相当于 100 个传统通算中心,一旦发生供电中断,每秒钟将造成数十万元的算力损失。对此,石忆表示," 传统数据中心故障响应时间要求 2 分钟以内,但智算中心需压缩至 30 秒,且故障影响半径扩大 3 倍,任何单点故障都可能引发集群瘫痪。"

安全事件在带来数据、服务器等直接损失之外,更可能导致数月模型训练成果付诸东流。同时,安全事件的发生还会对 IDC 服务商的品牌价值,以及客户对其信任度带来不小的冲击。

更严峻的是,传统集中式架构存在单点故障风险,而 AI 计算的连续性要求,使得这种风险被放大 10 倍以上。AIDC 的安全已不是 " 概率问题 ",而是 " 底线问题 ",任何一次故障都可能终结企业的 AI 竞争资格。

除了安全问题之外,随着 ChatGPT 的问世,人们开始发现机柜的功率越来越高,原本 300W 的单颗 CPU,已经不足以支撑业务,500W 的单颗 CPU 芯片成为主流。与此同时,AI 对于 GPU 的需求,也让单机柜的功率进一步提升。2.5kW 标准机柜已经是过去式,8kW、10kW,甚至 20、50kW 的机柜的不断出现,也让单机柜功率越来越高。与此同时,随着摩尔定律逐渐失效,在后摩尔定律时代下,芯片算力与其功耗仍将大幅提升。机柜功率的不断攀升,也对数据中心的供配电系统提出了新的挑战。

这个挑战一方面是来自供配电稳定性和连续性的保障;另一方面,更容易被人们所忽视的是:传统数据中心 " 白空间 "(服务器区)与 " 黑空间 "(配电区)的比例大致为 2:1,而在 AIDC 时代,这个比例将被彻底逆转,部分高密 AIDC 甚至出现 1:3 的极端情况,这意味着 3/4 的场地被配电、散热设备占据。而对于 IDC 客户而言," 白空间 " 是用来创造价值的," 黑空间 " 则属于纯成本支出,获得更多的 " 白空间 " 才能获得更大的收益。

与此同时,在 AI 时代,用户对于数据中心交付周期的要求也越来越高。而作为算力的底层支撑,数据中心的建设周期之长,是业内的共识。

而 AI 等 IT 技术的演进日新月异,数据中心机柜密度也随之飞速提升," 传统建设方式,规划阶段规划的单柜功率普遍在 5-10kW/ 标准柜,而目前单台支持大模型的 AI 服务器功耗就已达 10kW 以上,数据中心的规划建设速度难以满足各行业对算力持续高速增长的迫切需求。" 此外,还有一个尖锐的矛盾摆在面前:服务器的更新周期是 3 到 5 年,而数据中心基础设施的设计寿命是 10 至 15 年。对此,石忆告诉笔者,传统数据中心 18 到 24 个月的建设周期,与算力 " 一年一迭代 " 的速度形成致命错配。客户交付周期要求从‘年’,压缩至‘月’,甚至出现‘ 6 个月必须上线’的硬性指标,这种情况对数据中心的建设速度提出了更高的要求。

而在这些挑战的背后,还有一个不容忽视的问题—— AI 时代带来的传统异步计算向同步计算的转型。这个过程使得供电、制冷、网络的协同要求达到 " 微秒级 ",而现有基础设施的 " 烟囱式 " 架构根本无法实现这种协同。更严峻的是,技术迭代带来的标准混乱问题——不同厂商的 GPU、液冷设备接口不统一,导致 AIDC 建设陷入 " 定制化陷阱 ",进一步拉长周期、推高成本。

安全是 AIDC 的首要条件

面对挑战,华为数字能源在 2025 全联接大会上提出的 RAS 理念(Reliable 安全可靠、Agile 弹性敏捷、Sustainable 绿色低碳),而华为也正是沿着这三条路径向前推进 AIDC 建设的。

而 RAS 理念中,最为重要的就是 "R" ——安全。AIDC 的安全底线不仅关乎设备存续,更决定算力服务的连续性。" 安全是 1,没有安全,一切都是 0。"

IDC 的安全可靠不仅是某个环节的安全可靠,更是要构建涵盖数据中心全生命周期的防护体系。不同于传统数据中心的单点防护思维,华为构建了覆盖产品、架构、管理、运维的四层防护体系,实现从器件到系统的全生命周期可靠。

数据中心安全体系化,首先要做的就是将原有的集中式的架构转变为分布式架构。摒弃集中式设计,确保单一故障点不会引发系统性崩溃。例如,制冷系统需要实现风冷或液冷单元相互隔离,按需部署,一台故障时其他单元能迅速补上冷量。

其次是主动安全,特别是在高风险环节如锂电池储能上。智算时代,通过锂电池取代原有占地面积大、生命周期短的铅酸电池,已经成为数据中心降低后续运营成本,提升数据中心 " 白空间 " 面积的重要举措之一。

作为国内较早探索锂电池应用的企业之一,华为在数据中心锂电池安全方面提出了 " 既要快速响应,也要预知风险 " 的策略。石忆告诉笔者,锂电池出现安全风险之时实现快速处置,避免损失仅仅是基础操作,更为重要的是,在故障发生前就能精准定位并更换有风险的电池,如此才能将风险降到最低。目前,华为对锂电池告警的覆盖率达到了 92%,报警的准确率是 97%,而且这个告警最高可以提前七天。

弹性需求如何满足?

" 行百里者半九十 ",当安全基础 " 打牢 " 之后,如何满足用户在智算时代的需求,成为服务商能否获得更多份额的关键。" 智算时代唯一不变的就是变化,弹性是应对变化的唯一选择 " ——这句话已经成为行业内公认的事实,也指出了当前很多数据中心 " 建成即过时 " 的痛点。

面对此,华为给出了 " 解耦化、模块化、预制化、高密融合 " 的 " 四化 " 解决方案。通过此,让 AIDC 建设速度与 IT 技术迭代实现同频共振,相较于传统方案,将数据中心的交付周期缩短 60% 以上。

这个过程中,最为重要的一步是——实现子系统的解耦。传统数据中心,基础设施层与服务器的供配电、供冷系统是紧耦合的状态,一旦一方发生变化,无异于将数据中心 " 推倒重建 "。即便在通算时代,一代服务器的 " 寿命 " 平均在 5 年左右,而数据中心基础设施层的 " 寿命 " 则应在 10~15 年左右。这也就意味着,一个数据中心需要兼容三代服务器的更迭。

而当时间来到智算时代,服务器更迭速度只会比通算时代快,紧耦合的状态,对于需求敏捷的客户来说,一点也不敏捷。所以,在石忆看来,数据中心实现弹性的第一步就是实现解耦。" 华为将 AIDC 拆分为 IT、供配电、制冷三大独立子系统,实现串行施工向并行施工的转变。" 石忆介绍道。

在华为云(芜湖)数据中心项目中,基础设施与服务器的解耦设计,使得机电安装仅用 71 天完成,较传统方案节省 50% 时间,整体项目耗时 3 个月。不仅于此,石忆表示,这种设计还支持 " 按需扩容 "," 客户可先部署基础框架,待确定服务器功率后再上配电单元。" 石忆进一步指出。

当系统都实现解耦之后,就可以进一步通过模块化的方式,在工厂预生产后,进行现场组装即可完成数据中心建设。

互联网 " 快 " 的特点也在新一轮人工智能的浪潮下得以延续,用户对于数据中心交付周期的要求也越来越高。模块化似乎已经逐渐成为近年来数据中心建设的主流方式,石忆告诉笔者,模块化不是终点,还要将模块预制化,减少现场施工工程量,将现场的设备安装、集成、调试提前到工厂来完成,实现工程产品化。其最大的价值就是用工厂的标准化、高质量生产和测试,确保了高效率以及高质量,把现场的工程变得最小化,极大减少现场安装,助力 AIDC 快速高质量建设。

通过模块化方式,还能实现硬件设备的即插即用——通过预留通用接口的方式,让后续无论是制冷系统,还是服务器的更换都可以 " 傻瓜式 " 即插即用,进一步提升了部署速度。

不仅于此,模块化的方式,还能大幅降低数据中心在建设过程中的碳排放,实现全生命周期内的降碳,这点也正好呼应了 RAS 理念中——绿色低碳。

绿色低碳从 " 责任 " 变成 " 生存需求 "

在 " 双碳 " 目标与能源危机的双重驱动下,绿色低碳已从社会责任升级为 AIDC 的生存需求。传统模式下,IDC 服务商与客户都存在 " 降低能耗总量 " 的误区。然而,随着机柜功率不断攀升,降低总能耗已经是一条 " 不可行之路 ",面对此,华为提出了 " 提升系统效率 " 的核心思路,通过高效供电、高效制冷、系统高效、算电协同等四大路径,实现全链路降碳。

高效供电方面,通过技术创新降低损耗。例如,华为 UPS 在 S-ECO 模式下效率高达 99.1%。

高效制冷方面,随着智算时代液冷的普及,制冷能耗得到进一步降低,但风冷系统仍将继续存在,风冷和液冷系统走向融合化,冷源统一化,通过 AI 手段对制冷系统做系统级能效调优,进一步降低制冷能耗,提升制冷效率。

系统协同方面,通过系统协同,实现能源与算力的智能匹配。" 打通 L1 能源基础设施与 L2 算力基础设施的信息流,通过 AI 算法根据负载波动调节设备状态,让每瓦电力都能承载更多算力。" 石忆强调。

算电协同方面,绿电直供,就近消纳是目前数据中心绿色低碳化的不可或缺的一步,而从国家规划的八个算力枢纽节点布局上就不难看出国家在绿电直供,就近消纳的布局。八个节点除了北上广这样的一线算力需求高度集中的城市之外,其余节点几乎都处于盛产绿电的地方。

在面对行业存在 " 安全与低碳不可兼得 " 的误区——认为冗余设计会增加能耗,节能措施会牺牲安全,石忆表示,高安全与高能效可以协同实现,关键在于系统级的优化设计。

整体来看,数据中心正在向超高功率、超高密度和超大规模发展,智算中心的建设不仅是应对当前挑战的务实选择,更是赢得未来 AI 竞争的战略布局。同时数据中心的设计思路也在变化,从 " 大系统 " 向 " 标准化 + 模块化分布式架构 " 演变,更弹性应对未来需求的不确定性,此外还要从软硬件层面考虑网络安全、供应安全和备电安全等问题。

可以说,AI 算力的洪流既带来了 " 最好的时代 " 的机遇,也引发了 " 最焦虑的时代 " 的挑战。在这场 AIDC 变革中,唯有以全栈专业能力与经验沉淀为底色,才能实现智能进化、再造卓越,而华为正在这条路上挺进。(文|Leo 张 ToB 杂谈,作者|张申宇,编辑丨盖虹达)

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容