文 | 半导体产业纵横
在 ASIC 市场,近日听到的一些言论是相悖的。
" 全球众多 ASIC 项目中,90% 会失败 " 这句话来自英伟达 CEO 黄仁勋。
黄仁勋对于 ASIC 的评价并不算多。因此相关言论一出,市场上关于 ASIC 成长性的讨论瞬间多了起来,各种猜测层出不穷。
黄仁勋表示,相较于英伟达主打通用 GPU 架构,ASIC 专为特定任务打造,虽在单一用途上效能与效率极高,但缺乏灵活性与扩展性。这种 " 单点优化 " 策略,难以应对 AI 应用快速演进的现实。黄仁勋评价 ASIC 时并非否认其价值,而是强调 " 入场门槛与运维难度都很高 "。他以谷歌 TPU 为例称,其团队是 " 全球最强 ASIC 团队 ",但即便如此,谷歌 Gemini 模型仍同时部署在英伟达 GPU 上。
但市场上另一种声音同样有依据——在 ASIC 的迅猛发展中,英伟达已嗅到危险的信号。
01 ASIC,赶超 GPU?
在算力芯片市场,ASIC 的 " 簇拥者 " 可并不算少。在 ASIC 芯片大厂、云巨头等助推下,AI 算力市场正在迎来新的临界点。
根据野村证券的最新报告,目前英伟达 GPU 占 AI 服务器市场 80% 以上,ASIC 仅占 8%-11%。
然而,从出货量的角度来看,情况正在发生变化。到 2025 年,谷歌的 TPU 出货量预计将达到 150-200 万台,亚马逊 AWS Trainium 2 ASIC 约为 140-150 万台,而英伟达的 AI GPU 供应量将超过 500-600 万台。
供应链调查显示,Google 和 AWS 的 AI TPU/ASIC 的总出货量已经达到 Nvidia AI GPU 出货量的 40%-60%。
随着 Meta 于 2026 年开始大规模部署其自主开发的 ASIC 解决方案,Microsoft 将于 2027 年开始大规模部署,预计 ASIC 总出货量将在 2026 年的某个时候超过英伟达 GPU 出货量。
这也意味着,属于 ASIC 的时代将正式到来。
OpenAI 宣布测试谷歌 TPU 的消息也进一步点燃市场热情。据悉,人工智能(AI)技术大厂 OpenAI 已开始租用谷歌的 AI 芯片,以支持旗下 ChatGPT 和其他产品的计算需求。对此 OpenAI 回应称,目前没有使用谷歌自研芯片来驱动产品的计划。
不过,OpenAI 发言人指出,虽然公司的 AI 实验室确实正在初步测试部分谷歌的 TPU,但目前尚无计划大规模采用。
目前,OpenAI 主要依赖英伟达的 GPU 以及 AMD 的 AI 芯片来满足其日益成长的 AI 计算需求。为了降低对于英伟达、AMD 的依赖,OpenAI 也正在开发自家芯片,计划今年达成 "tape-out" 里程碑,即芯片设计完成并送交制造。
上一位采用谷歌 TPU 而引起轰动的是苹果。去年 7 月,苹果在官网的一篇论文中披露,其训练模型采用了谷歌研发的第四代 AI ASIC 芯片 TPUv4 和更新一代的芯片 TPUv5。
在去年之前,与英伟达 GPU 相比,谷歌的 TPU 还像是一位 " 名不见经传 " 的小将,如今看来,似乎已有实力与英伟达 GPU 展开一番较量。
但是在笔者看来,"ASIC 芯片是否在未来有望碾压 GPU?" 这更像一个伪命题。
02 ASIC,核心优势
市场普遍认为,ASIC 芯片正成为 AI 芯片的重要分支。但是 ASIC 究竟以何种优势给 GPU 带来冲击?以及具体带来哪些冲击,相关讨论却较少。
针对一系列问题,笔者将对此展开讨论。
根据承担任务的不同,AI 芯片主要可以分为两类,它们分别是 AI 训练芯片和 AI 推理芯片。
2025 年,全球 AI 推理算力需求呈现爆发式增长,特别是在端侧应用场景中。这对于 ASIC 来说,也是一个契机。
首先说一下什么是推理。
推理是 " 用已训练好的模型处理数据 " 的过程(比如用训练好的图像识别模型识别照片、用语音模型转写语音)。一旦模型部署,其算法逻辑(如 CNN 的卷积层、Transformer 的注意力机制)、计算流程(输入输出格式、精度需求)会长期固定,几乎不需要调整。
这种 " 固定性 " 正好匹配 ASIC 的核心优势 ——为单一任务定制硬件架构:可以直接将推理算法的计算逻辑、数据路径 " 固化 " 到芯片中,去掉所有无关的通用计算单元(如 GPU 中用于训练的动态调度模块、通用内存控制器),让硬件资源 100% 服务于推理计算。
同理,ASIC 在训练任务中的能力就相对弱一点。因为训练任务算法迭代快,需求灵活。ASIC 若用于训练,算法更新时,芯片面临失效风险,性价比要低得多。
推理场景对" 能效比 "(每瓦功耗能提供的算力)和 " 成本 " 的敏感度远高于训练,而 ASIC 在这两方面具有碾压性优势。
能效比方面,谷歌 TPU v5e TPU 的能效比是英伟达 H100 的 3 倍。
成本方面,AWS 的 Trainium 2 在推理任务中性价比比 H100 高 30%-40%,谷歌的 TPUv5、亚马逊的 Trainium2 单位算力成本仅为英伟达 H100 的 70% 和 60%。
一个大模型可能只需要几十到几百张训练芯片(如 GPU),但推理阶段可能需要数万甚至数十万张芯片(比如 ChatGPT 的推理集群规模是训练集群的 10 倍以上)。因此 ASIC 的 " 定制化 " 设计可以降低单芯片成本。
VerifiedMarketResearch 数据显示,2023 年 AI 推理芯片市场规模为 158 亿美元,预计到 2030 年将达到 906 亿美元,在 2024-2030 年预测期内的复合年增长率为 22.6%。
当前的推理场景正呈现 ASIC 与 GPU 共存竞争的格局,ASIC 芯片市场空间巨大。
近日,博通 CEO Hock Tan 与 CFO Kirsten Spears 也在会议中强调,该公司 AI 推理领域的订单显著增加,该公司目前正与四个潜在的 AI XPU 客户紧密合作,计划在今年为摩根大通认为的 Arm/ 软银和 OpenAI 等主要客户完成第一代 AI XPU 产品的流片。
再看训练市场的竞争态势。AI 训练芯片市场,几乎没有几家竞争者,英伟达一家就占据了 AI 训练市场 90% 以上份额,其 Blackwell 架构支持 1.8 万亿参数模型训练,且 NVLink 6 技术实现 72 卡集群无缝互联。
上文提到,训练任务的 " 灵活性 " 与 GPU 架构天然契合,此外,英伟达通过 CUDA 平台构建了难以撼动的软件生态:90% 以上的 AI 框架(TensorFlow、PyTorch)原生支持 CUDA,开发者无需重写代码即可调用 GPU 算力。这种生态惯性使得即使 AMD、华为等厂商推出性能接近的训练芯片,用户迁移成本依然极高。
有业内人士向半导体产业纵横表示,模型架构的稳定性是 ASIC 发挥价值的核心前提——模型稳定时,ASIC 的低成本、高效能优势能充分释放;模型快速迭代甚至出现革命性变革时,ASIC 容易因适配滞后而失效。
这也是为什么业内一些专家将 ASIC 市场规模爆发的节点指向 2026 年。ASIC 的设计周期长达 1-2 年,而 AI 模型迭代速度极快(如大模型从 GPT-3 到 GPT-4 仅用 1 年)。若 ASIC 设计时锚定的模型过时(如 Transformer 替代 CNN),芯片可能直接失效。
而如今随着大模型的发展,算法初步固化。再加上 ASIC 成本的持续下探,它也便有了更好展示自己的舞台。
至于 ASIC 是否会替代 GPU?在笔者看来这个问题为时尚早。
短时间内看,ASIC 和 GPU 的竞争,本质是 " 效率 " 与 " 灵活性 " 的权衡,二者暂时并非互相替代关系。ASIC 在特定场景的优势,无法打破 GPU 的生态壁垒;而 GPU 的通用性,让它在复杂任务中难以被替代。未来,两者会借助混合架构(如 GPU + ASIC 加速卡)和异构计算(如 CUDA 与定制指令集协同),实现资源最优配置。
未来随着 AI 市场的发展,究竟需要何种芯片,尚难定论。
03 芯片龙头,纷纷切入 ASIC
除了谷歌,国内外均有多家 AI 芯片公司选择拥抱 ASIC。
Meta
Meta 的核心算力负载来源于推荐系统场景,具备自研强调专用性的 ASIC 芯片的土壤。
Meta 于 2023 年和 2024 年分别推出 MTIA V1 和 MTIA V2 芯片。此外,Meta 还计划 2026 年推出 MTIA V3 芯片,预计将搭载高端 HBM,与 V1/V2 芯片专注于广告与社交网络等特定任务不同,有望扩展应用至模型的训练与推理任务。
亚马逊 AWS
AWS 在 AI 芯片的布局主要包含推理芯片 Inferentia 和训练芯片 Trainium 两大系列。
自 2020 年以来,亚马逊发布了三代 Trainium 芯片。其中 Trainium3 性能或较上一代提升 2 倍,能效提升 40%,搭载该芯片的 UltraServers 性能预计提升 4 倍。
微软
2023 年 11 月,微软在 Ignite 技术大会上发布了首款自家研发的 AI 芯片 Azure Maia 100,以及应用于云端软件服务的芯片 Azure Cobalt。两款芯片将由台积电代工,采用 5nm 制程技术。
Cobalt 是基于 Arm 架构的通用型芯片,具有 128 个核心,Maia 100 是一款专为 Azure 云服务和 AI 工作负载设计的 ASIC 芯片,用于云端训练和推理的,晶体管数量达到 1050 亿个。这两款芯片将导入微软 Azure 数据中心,支持 OpenAI、Copilot 等服务。
下一代 Maia v2 的设计已确定,后端设计及量产交付由 GUC 负责。除深化与 GUC 的合作外,微软还引入美满电子共同参与 Maiav2 进阶版的设计开发,以强化自研芯片的技术布局,有效分散开发过程中的技术与供应链风险。
华为海思旗下昇腾系列处理器自诞生以来,凭借其强劲的算力和创新的设计,特别是昇腾 910B,在技术和应用上都取得了显著突破。
寒武纪作为国内 AI 芯片设计领域的佼佼者,在推理计算及边缘设备 AI 加速方面市场竞争力日益凸显。寒武纪的旗舰产品 MLU590 专注于 AI 训练与推理。
在全球 AI 芯片竞争中,国产 ASIC 芯片既面临挑战,也迎来历史性机遇。通过持续创新和技术突破,国产 ASIC 正逐步扩大市场份额。
04 ASIC 芯片,两大受益者
在 ASIC 市场,目前博通以 55%~60% 的份额位居第一,Marvell 以 13%~15% 的份额位列第二。
博通在 AI 芯片领域的核心优势在于定制化 ASIC 芯片和高速数据交换芯片,其解决方案广泛应用于数据中心、云计算、HPC(高性能计算)和 5G 基础设施等领域。博通的 ASIC 芯片业务已成为其核心增长点。财报披露,定制 AI 芯片(ASIC)销售额预计占第二季度总 AI 半导体收入的 70%,达 308 亿美元(约合 450 亿美元)。
目前,博通已与三家超大规模云服务提供商(如谷歌、Meta、字节跳动)合作,并新增 OpenAI、苹果等客户,未来计划扩展至七家大型科技企业。其中博通有两个大合作备受关注:第一是 Meta 与博通已合作开发了前两代 AI 训练加速处理器,目前双方正加速推进第三代 MTIA 芯片的研发,预计 2024 年下半年至 2025 年将取得重要进展。
Marvell 的定制 ASIC 业务正成为其强劲增长的核心动力之一。Marvell 的具体业务中,数据中心业务占据 75% 左右,属于高成长业务。这部分业务包括 SSD 控制器、高端以太网交换机(Innovium)及定制 ASIC 业务(亚马逊 AWS 等定制化芯片),主要应用于云服务器、边缘计算等场景。
根据公司交流及产业链信息推测,Marvell 当前的 ASIC 收入主要来自亚马逊的 Trainium 2 和谷歌的 Axion Arm CPU 处理器,而公司与亚马逊合作的 Inferential ASIC 项目也将在 2025 年(即 2026 财年)开始量产。公司与微软合作的 Microsoft Maia 项目,有望在 2026 年(即 2027 财年)。