甲骨文正在经历其历史上规模最大的重组。
这家软件巨头,计划投入高达 16 亿美元的重组成本,包括向离职员工支付遣散费。这次重组的规模远超甲骨文此前披露的任何类似计划。加利福尼亚州和华盛顿州最近的 WARN 文件显示,已有超过 500 名员工收到裁员通知,而实际影响的员工数量可能超过 3000 人。
重组的背后是甲骨文业务重心的根本性转变,公司正从传统软件制造商转型为 AI 基础设施提供商。为了履行与 OpenAI 和 Meta 等公司签署的大规模云基础设施协议,甲骨文需要租赁数据中心,配置先进的英伟达芯片,并为这些设施供电。
根据彭博一致预期估算,甲骨文未来几年将投入数千亿美元用于基础设施建设。仅在德克萨斯州西部的一个数据中心,甲骨文就计划每年投入超过 10 亿美元用于现场燃气发电。
这些巨额投资使得甲骨文的现金流在 2025 年首次转为负值,这也是该公司自 1992 年以来的首次为负。分析师预计这一指标在未来一年将继续恶化,直到 2029 年才能重新转正。
01
甲骨文的经历并非个例。微软在投入数百亿美元建设数据中心并承诺控制成本后,今年裁员约 15000 人。通过裁员来抵消 AI 投资成本,已经成为主要科技公司普遍采用的策略。根据行业追踪平台 Layoffs.fyi 的数据,2025 年前三个季度已有超过 83000 名科技工作者失业,涉及 194 家公司。
甲骨文多年来在竞争激烈的云基础设施市场中远远落后于前三大供应商亚马逊、微软和谷歌。如今签署了重要的云协议,作为前期成本的 " 负现金流 " 就成为了入场门票。
甲骨文的股价在 2025 年上涨近 90%,既有可能超过自 1999 年以来的最佳年度表现。根据 Forrester 的预测,甲骨文将花费 16 亿美元进行重组,截至 8 月 31 日仅花费了 4.15 亿美元,以用于给予那些被辞退的员工,而 12 月底还将有大约 10000 个职位面临裁减。
AI 基础设施建设的逻辑与传统软件开发截然不同。软件可以快速迭代,应用可以灵活部署,但数据中心建设需要长期规划,芯片采购需要提前预订,电力供应需要稳定保障。当软件的发展速度远超硬件的供给能力时,整个产业就会遭遇基础设施瓶颈的根本性制约。
甲骨文 2025 年 9 月 10 日发布的财报数据为这个问题提供了最直观的证明。4550 亿美元的订单积压,股价单日盘中暴涨 41%,市值增加近千亿美元。甲骨文的 AI 基础设施收入实现了 55% 的显著增长。公司预计这一增长势头将持续,并预测本财年该业务收入将达到 180 亿美元,五年内将达到 1440 亿美元。
事实上,虽然订单业的数额很大,但理解起来并不复杂。就拿甲骨文和 OpenAI 的大订单为例,甲骨文主要提供 OpenAI 提供数据中心,让 OpenAI 可以把数以 PB 级别的原始数据放在这个数据中心的数据库里。
这些数据结构包括文本、代码、JSON 文件,还有图片。OpenAI 要对这些原始数据进行清洗、去重、标注和格式化,进而训练自己的大模型。于是甲骨文就要提供一个足够大的数据库,以存储这些数据。
然而还有一个问题,大模型并不能直接理解数据,它只能理解 Tokens。所以甲骨文还要通过这个数据库,将所有的原始数据转换为 Tokens,将其 " 向量化 ",因此这个数据库也被称作是向量数据库。
甲骨文的数据中心另一大作用就是帮助 OpenAI 实现调用。因为一个万亿参数的模型本身可能就占用数 TB 的显存。没有任何单一的 GPU 能装下它。因此,模型被 " 切片 " 后,分布加载到这 4096 个 GPU 的显存中。
那么,当 OpenAI 请求一个例如包含 4096 个 NVIDIA H100 GPU 的计算集群,那么甲骨文的数据中心就要能第一时间响应这个请求,点亮并调用这些 GPU。
财报显示,甲骨文与亚马逊、谷歌和微软合作的多云数据库服务收入增长率高达 1529%。更夸张地是,甲骨文最近还和 OpenAI 签署的协议价值高达 3000 亿美元。
甲骨文现在要做的,是新一代的 AI 基础设施。以 Oracle AI Database 为例。这个产品可以让客户在甲骨文数据库上直接使用各种大型语言模型,因此,客户不需要单独采购计算资源、存储资源和 AI 模型,跳过了原先复杂的部署阶段。
这种数据库与 AI 模型的深度集成代表了基础设施服务的新方向,不再是简单的计算资源租赁,而是提供完整的 AI 解决方案平台。通过将企业数据进行向量化处理,使 ChatGPT、Gemini 等主流大模型能够轻松理解和运用企业数据。
甲骨文的成功揭示了 AI 基础设施竞争的新逻辑。甲骨文首席财务官 Safra Catz 透露,公司能够在一周内完成客户原本预期需要数月时间的大型数据中心交付。能与 OpenAI、xAI 和 Meta 等 AI 巨头签署数十亿美元合同,快速交付和成本优化才是关键因素。
什么叫成本优化呢?
数据中心的地理分布和网络架构设计对 AI 应用的性能影响巨大。AI 训练需要大量数据在不同节点间传输,推理服务需要低延迟的响应能力。甲骨文通过优化数据中心的网络拓扑和互联架构,实现了更高的数据传输效率和更低的延迟表现。
甲骨文的网络数据传输速度优势,使得按小时计费的客户成本减半。
这无疑不再释放着一个信号:行业不再仅仅围绕模型发布或消费者应用,AI 基础设施成为了最重要的参考系。
当海外云巨头还在为产能不足发愁时,甲骨文通过更高效的资源调度和更灵活的部署模式,成功抢占了市场份额。在这个需求爆发式增长、供给严重不足的时代,甲骨文的成功本质上是基础设施稀缺的直接体现。
表面上看,海外云巨头都在创造订单奇迹。根据 Canalys 的最新数据,全球云基础设施支出在 2025 年第二季度同比增长 22%,达到 953 亿美元,这是连续第四个季度增长超过 20%。谷歌云 1060 亿美元订单积压,微软 Azure 3680 亿美元履约义务,AWS 1950 亿美元订单积压。
表面上看,巨额订单积压,表明市场对产品或服务的旺盛需求。然而事实却恰恰相反。
AWS 公司管理层明确表示,需要几个季度的时间才能重新平衡供需关系。就相当于现在下单,要到 2025 年底或 2026 年初才能完工。微软则至少要到 2026 年上半年才能完工。
AI 基础设施的核心在于计算资源的高效调度和数据处理能力的优化。传统的云服务更多关注存储和网络,而 AI 基础设施需要专门针对机器学习工作负载进行优化。这包括 GPU 集群的管理、模型训练的资源分配、推理服务的负载均衡等专业能力。
也正是因此,海外云巨头正在经历一场史无前例的产能危机,手握大量订单却无法及时交付。
02
2025 年 9 月,蚂蚁数科在外滩大会上宣布推出按 " 效果付费 " 的新型商业模式,支持企业客户根据大模型应用的实际效果来付费,而非传统的项目制或订阅制模式。
传统云服务的商业逻辑正在被 AI 应用彻底颠覆。客户关注的不再是租用了多少台服务器,而是完成了多少次模型训练或处理了多少推理请求。
在传统云服务模式下,企业按照 CPU 核数、内存容量、存储空间等硬件资源付费。但 AI 应用的特殊性在于,相同的硬件配置在不同场景下的实际效果可能相差数倍。一次 GPT-4 级别的大模型训练可能需要数千张 GPU 卡运行数周,而同样的硬件用于推理服务可能每秒处理数百次请求。
AI 模型训练过程可能持续数天甚至数周,任何中断都会造成巨大损失。推理服务需要 7x24 小时稳定运行,任何故障都会直接影响业务连续性。这要求 AI 基础设施具备更强的容错能力、更快的故障恢复能力和更完善的监控预警机制。AI 基础设施的安全性和可靠性要求远超传统云服务。
这种差异催生了全新的计费模式。客户开始按照 " 训练完成的模型数量 "、" 推理请求的处理次数 "、" 模型精度的提升幅度 " 等实际业务指标付费。
" 按效付费 " 模式正在成为行业新标准。
亚马逊计划在 2025 年的资本支出超过 1000 亿美元,重点不再是简单的服务器扩容,而是针对 AI 工作负载的专门优化。这包括定制 AI 训练芯片 Amazon Trainium 和 Inferentia 的大规模部署,以及在美国超过 300 亿美元的新一代数据中心投资。
微软宣布的 800 亿美元基础设施扩张计划,核心是构建 "AI-first" 的云服务架构。不同于传统数据中心的通用计算能力,新架构专门针对大模型训练和推理场景进行优化,能够显著提升 AI 任务的执行效率。
谷歌将 2025 年资本支出目标从 750 亿美元提高到 850 亿美元,增量部分主要用于 TPU 集群扩建和 AI 专用网络架构升级。
不过我们得认清一个事实,产能危机的根源在于 AI 基础设施的特殊性需求。与传统云服务不同,AI 基础设施需要专门的 GPU 集群管理、模型训练的资源分配、推理服务的负载均衡等专业能力。这些需求无法通过简单的横向扩展来满足,而需要针对性的架构设计和硬件配置。
更严重的是,AI 基础设施面临多重供应链瓶颈。英伟达 GPU 短缺、台积电 CoWoS 封装产能不足、数据中心电力供应紧张等问题相互叠加,形成了系统性的供应制约。即使云巨头拥有充足的资金,也难以在短期内大幅扩充有效产能。
03
2024 年 10 月,美国商务部进一步收紧对华芯片出口管制,英伟达 H20 芯片面临停产风险。这款专门为中国市场设计的阉割版芯片,性能相比 H100 大幅削减,但仍然是中国企业能够合法采购的最先进 AI 芯片之一。
时间来到 2025 年的 7 月 15 日,黄仁勋在中国高调宣布,美国政府已批准英伟达 H20 芯片在华销售许可,并表示 " 中国市场规模庞大、充满活力且极具创新性,美国企业扎根中国市场的确至关重要 "。
半个月后,国家互联网信息办公室约谈英伟达公司,要求其就对华销售的 H20 算力芯片漏洞后门安全风险问题进行说明并提交相关证明材料。网信办指出,美国议员曾呼吁要求美出口的先进芯片必须配备追踪定位功能,美国人工智能领域专家透露英伟达算力芯片追踪定位和远程关闭技术已经成熟。
这次约谈并非空穴来风。2025 年 5 月,美国众议院提出《芯片安全法案》,要求美国商务部强制受出口管制的芯片植入位置验证和远程控制功能。7 月,美国白宫发布《人工智能行动计划》,要求企业建立芯片位置验证机制,通过技术手段阻止高端 AI 计算芯片流入 " 密切关注国家 "。
根据伯恩斯坦报告,2025 年中国 AI 芯片市场规模达到 380 亿美元,国产芯片销售额从 60 亿美元跃升至 160 亿美元,市场占比从 29% 提升到 42%。
国产 AI 芯片虽然数量增长迅速,但配套体系还不够完善。大多数企业在选择 AI 基础设施时,需要对性能和成本进行权衡,一些关键的训练,仍然离不开英伟达产品。
国产 AI 芯片的替代方案被统称为 " 类 CUDA"。这是因为英伟达为 AI 提供算力,需要通过物理设备 GPU,以及软件系统 CUDA 共同完成。没有 CUDA,GPU 强大的并行计算能力就无法被释放,对于 AI 开发者来说,没有 CUDA 的 GPU 就是一块废铁。
全球数百万的 AI 开发者、科研人员都是在 CUDA 环境下学习和工作的。他们的代码、项目、经验和习惯都和 CUDA 深度绑定,迁移到另一个平台的学习成本和时间成本极高。
国内的 AI 芯片厂商,比如华为的昇腾,百度的昆仑芯,他们造出的芯片,在理论峰值算力上可能已经可以追赶甚至在某些指标上超越英伟达的同代产品,可在软件生态上,必须向 CUDA 看齐。
但是 CUDA 不仅仅是一个编程框架,而是一个包含编译器、调试器、性能分析工具、数学库在内的完整开发生态系统。英伟达用了 17 年时间构建这个生态,中国企业想要做出一个包含编译器、驱动,还有库的软件栈,去做 CUDA 平替,这是一个非常困难的事情。
英伟达下一代 Vera Rubin 系统将于 2026 年下半年上线,届时性能优势将进一步扩大。如果国产 AI 芯片无法在 CUDA 生态替代上取得突破性进展,技术差距只会越来越大。
时间很紧迫!