关于ZAKER 合作
钛媒体 4小时前

云厂商的 AI 决战

文 | 脑极体

最近,"Token 能否成为 AI 云的北极星指标 " 这一话题,在业内引发热议。

支持的一方认为,token 使用量与云业务的表现,是高度正相关的。最新的阿里集团 FY26Q1 财报显示,AI 产品带动传统云服务同步增长,说明 AI 云上面的投入成效显著,腾讯云也加速海外布局,计划在沙特建设首个中东数据中心、扩容印尼第三个数据中心,支撑出海企业的 AI 需求。

但反对的观点也有一定道理,过度聚焦 token 这个单一量化指标,容易忽略 AI 云的核心竞争壁垒与大量隐性算力场景,比如政企市场的私有化业务,只看 token 难以真实反映行业竞争格局。

我们的看法是很明确的,单一指标并不等同于核心竞争力。就像一个小学生身高 180,只能说明先天基因优越,却无法预判未来能成为姚明。而判断一个成年人,我们会从身高、颜值、人品、学历、家庭背景、工作能力等各个因素来看,AI 云也不例外。

随着云厂商不甘于仅扮演 " 水电工 " 角色,逐步进入到 AI Infra(人工智能基础设施)的全栈较量,也就是为 AI 应用提供全生命周期的底层技术体系,包括训练、推理、部署、数据工程、上线运维等各个环节,标志着行业竞争已从单纯的资源供给,升级为全链路业务赋能的综合比拼。这时候,只看 token 肯定会一叶障目。

不过,从 GPU、Maas 到 AI infra,AI 云的竞争要素与指标,并不是一开始就定好了,是与 AI 行业同步进化,逐渐演变到了当下的样子。

理解这个演进轨迹,比记住一个简单结论,重要得多。我们就来回顾一下云厂商的 AI 大战,是如何循着一条清晰的路径,逐步聚拢于 AI Infra 的全面战场。

AI 云第一战:GPU 的弹药库

2023 年 chatgpt 横空出世,大模型浪潮席卷全球,算力成为博弈的关键。云厂商成为中国 AI 大模型的算力守门人。这场 " 广积粮 " 式的抢卡大战,更直接奠定了后来 AI 云竞争格局的基本盘。

为啥这么说呢?没有最先进的芯片,大模型的训练都无从谈起。一场 " 抢芯大战 " 就此拉开帷幕,焦点就是英伟达高端 GPU 芯片,尤以 H100、A800/H800 系列。

可是,一来 N 卡很贵,而云厂商是资源大户,更有实力全力角逐英伟达高端 GPU 资源。据 Omdia 统计数据,2023 年英伟达售出了 50 万个 A100 和 H100 GPU,头部科技公司瓜分了绝大多数份额:Meta 与微软各拿下 15 万块 H100 GPU,购买量并列位居第一,谷歌、亚马逊、甲骨文及腾讯各采购 5 万块,百度、阿里分别斩获 3 万块与 2.5 万块。

不难看到,腾讯的采购策略最为激进,以 5 万张 H100 的采购量稳居国内首位。凭借充足的芯片储备,腾讯云率先发布新一代 HCC 高性能计算集群,算力性能较前代提升 3 倍,缩短大模型训练时间,抢占了算力竞赛的先发优势。

另一个原因是,N 卡有限制。国内企业仅能采购特供版芯片,但 2023 年云厂商还能绕过美国出口管制政策限制,凭借以往跟英伟达的供应链合作关系,争夺到高端算力资源。当时,百度虽然已经有昆仑芯 AI 芯片,但 2023 年自研芯片尚未形成规模。

(图源:Omdia 报告)

坊间流传,当时百度与英伟达黄仁勋直接对接,锁定 A800 芯片的优先供货权。而这层关系背后,是百度长期在 AI 领域,特别是飞桨框架构建的生态羁绊。

鲜为业内知晓的是,百度飞桨早在 2020 年便布局硬件生态,当年联合 13 家国内外顶级硬件厂商发起 " 飞桨硬件生态圈 " 计划,就优先绑定了英伟达,作为深度合作伙伴,通过高频次中高管对接,英伟达组建了专职 PM 与研发团队专项对接。这种长期合作积累的信任基础,应该为百度参与抢芯大战提供了不少助力,也有力支撑了百度智能云的 AI 算力集群,以及文心大模型作为首个对标 chatgpt 的中文大语言模型率先问世。

可以说,这一阶段的竞争胜负,取决于资本实力与供应链掌控力。

2023 年的抢卡大战,堪称国内云厂商在 AI 时代的首场硬仗,为中国 AI 的发展提供了不可或缺的算力弹药,并影响到后续战略走向。后来,算力储备充足如阿里云,可以通过降价抢占市场,而受海外供货限制的华为等厂商,则转向差异化突围。

同时,当竞争集中在卡型、算力规格,也让供应链危机格外凸显。英伟达芯片供应链的不稳定性,也让云厂商开始清醒认识到,过度依赖外部硬件绝非长久之计。自此,国内云厂商纷纷加大自研芯片投入,百度昆仑芯、阿里含光、华为昇腾等产品加速迭代,埋下了国产硬件突围的伏笔。

AI 云的第二战:模型的尖刀

囤了这么多 GPU 卡,云厂商是不是立马开战 AI 了?万万没想到,2024 年初的第一场云较量是《幻兽帕鲁》。现象级游戏《幻兽帕鲁》爆火,海量玩家的集中涌入导致服务器濒临崩溃,阿里云、华为云、腾讯云、京东云等国内厂商集体响应,针对性推出专属服务器。

大型游戏云服务,拼的是全球多节点、充沛算力、稳定网络,以及低价,这跟 AI 有半毛钱关系吗?大模型热潮已席卷一年,说好的 AI 云大战似乎迟迟未进入核心阶段。

云厂商很快发现,想靠 AI+ 云计算赚到钱,只堆算力并不够,还必须将算力转化为企业开箱即用的服务,也就是 MaaS(模型即服务)。

与开年的云游戏形成鲜明对比的,是 2024 年底我参加某头部云厂商的年度沟通会,其内部人士直言,云部门首次取代政企部门,在集团中优先登台汇报,核心源于亮眼的增长表现,而这份增长的核心驱动力,正是自研大模型这一 " 尖刀产品 "。

MaaS 赛道的竞争逻辑,就是把自研大模型,锻造成切入业务场景的一把 " 尖刀 "。

阿里云靠开源,通义全系列模型 +" 百炼 " 平台,构建模型的微调与部署一体化,以生态粘性锁定用户,同时主动发起价格战抢占市场份额。百度智能云则文心闭源 + 模型超市,升级文心大模型,同时千帆平台支持几十款主流开源模型一键调用,以开放的开发者生态扩大影响力。

腾讯云发力政企服务市场,在 2024 年全球数字生态大会上披露,腾讯云 " 自研 + 被集成 " 战略成效显著,服务客户超 200 万家,SaaS 合作伙伴收入增幅突破 100%。

这一年,火山引擎也正式加入 AI 云大战,凭借极强的工程化能力和推理优化,将模型推理成本降低 90% 以上,直接推动 AI 应用规模化爆发。

华为云则走出差异化路线。凭借政企市场的积累,发布盘古大模型 3.0,构建 L0(基础层)至 L3(行业层)的四级架构,聚焦政务、金融、制造等场景,以行业 Know-How 构筑壁垒。

可以看到,这一阶段的竞争胜负手,已从单纯的算力储备,转变为模型能力、行业适配能力。

风险也在酝酿,那就是模型能力几乎难以拉开差距,这就导致 Maas 服务对客户的锁定效应不明显。这一困境并不是国内云厂商独有的。

《Big AI: Cloud infrastructure dependence and the industrialisation of artificial intelligence》作者调研也发现,海外云基础设施也体现出高度相似性,AWS、Microsoft Azure 与 GCP 虽提供多样化服务,但核心服务类型与名称高度相似,这凸显了云基础设施的共性要素。

(图:云 AI 堆栈) 注:图中展示了亚马逊网络服务、微软 Azure 和谷歌云平台中云平台产品和服务之间的结构性互联。线条粗细表示引用频率,指示不同产品和服务之间联系的强度。

究其原因,是 AI 与云计算的整合,离不开一套完整技术栈、云基础设施工具及服务生态中的核心组件,这个庞大的技术栈必然有大部分都是重合的。

于是,云厂商的 AI 大战开始迈入第三阶段,转向 AI Infra,增强共性基础要素的综合竞争力。

AI 云第三战:Infra 的生态锁定

时间来到 2025 年,两大核心变量,将 AI 云竞争推向 AI Infra(人工智能基础设施)的战场。

一是模型。2025 春节,DeepSeek 横空出世,模型重心从训练规模转向推理效率。即便基于同一款开源模型,不同厂商的推理成本差距可通过 Infra 优化能力无限拉大," 同模型不同命 " 让企业越来越重视云基础设施的深度优化能力。

二是应用。Agent 智能体应用爆发,又是典型的 "Token 大户 ",AI Infra 作为连接算力与应用的关键桥梁,直接影响到智能体的能力差异,头部云厂商与中小玩家的差距持续扩大。

此时,AI 云已经进入 AI Infra 阶段,成为巨头的游戏。头部厂商纷纷加码布局,加速技术架构升级与组织调整。阿里云首提基础设施,华为云依托昇腾芯片与 ModelArts 平台打造全栈自主可控底座,百度智能云则提出 AI-Native 服务架构,打造从芯片研发、集群部署到平台优化的全链路技术闭环,腾讯云也专门成立 AI Infra 部门。

为什么支撑大模型和 agent 应用,离不开 AI Infra?这背后其实就是一本经济账。

想开源,增加 AI 云的使用量和收入,AI Infra 有极强的生态锁定优势。企业一旦将核心业务 Agent 部署于某家厂商的 Infra 之上,迁移成本极高,形成稳固的用户粘性。比如谷歌与 Anthropic、Midjourney 达成深度合作,亚马逊成为 Stability AI、Hugging Face 的首选云合作伙伴,都是这个逻辑。

想节流,硬件芯片的性能释放效率,完全依赖 Infra 层的适配调度能力。特别是在 GPU 供给受限的背景下,华为昇腾、寒武纪、沐曦等国产集群,更需要深度优化来提升算力利用率,让云厂商的单位 Token 成本持续下降。AI Infra 靠自研芯片摆脱对单一供应商的依赖,将推理成本压至行业低位,构建可持续的成本优势。

要知道,云计算是一门规模生意,成本决定生死,成本架构的优化能力是最底层的竞争力。而既能开源,又能节流,AI Infra 就成了云厂商在 AI 时代最大的利润池与护城河。

AI Infra 的核心竞争力,体现在各层级技术的全面布局、深度协同、极致优化,分别对应的是技术架构是否完整、技术之间能不能打通、降本增效效果好不好。

从底层,国产芯片正为 AI Infra 奠定基础。华为昇腾性能已接近英伟达,百度昆仑芯片支持万卡集群部署,阿里含光 800 专攻云端计算优化,这些国产芯片的性能提升,持续强化 AI Infra 的算力供给能力。

2025 年超节点的火热,也是系统级优化的一个成果体现,通过架构创新,实现算力效能倍增。比如百度天池 256/512 超节点通过拓扑优化,将卡间互联带宽提升 4 倍;华为云 CloudMatrix 384 超节点将 384 颗昇腾 NPU 与 192 颗鲲鹏 CPU 互联,都填补了国产超节点集群的市场空白。

当然,算力资源只是基础,能否实现规模化调度、稳定推理、低成本运营及生产环境长期适配,才是对云厂商全栈能力的终极考验。百度百舸平台、华为云昇腾与 CANN、火山引擎 HiAgent 体系,都是通过全链路优化让算力真正好用、易用。

可以说,有了可持续的 AI Infra,云厂商就算打价格战,也比别人的血条更厚、撑得更久。

阿里云宣布未来三年投入超 3800 亿元用于云和 AI 硬件基础设施建设,腾讯新成立 AI Infra(人工智能基础设施)部,头部厂商的持续加码,印证了 AI Infra 的长期价值。而这一切,最终都回归到 AI 云的核心逻辑:谁能让 AI 跑得更稳、更省,谁就能聚集起更大的用户规模,建立强者恒强的行业地位。

云起 AI 之潮,决战 Infra 之巅,云厂商的 AI 大战,接下来将进入到白热化阶段。

上世纪末的光纤基建狂潮,为后来的 Google、Facebook 崛起,以及互联网时代的爆发,筑牢了物理根基。今天,云产业正在复刻这一逻辑。

头部云厂商砸下千亿级资金布局 AI 基础设施,本质是在为下一个时代的科技巨头搭建成长底座。AI Infra 作为 AI 时代的水电煤,直接决定了未来十几年智能产业的发展格局。战局如何演进,让我们拭目以待。