关于ZAKER 合作
钛媒体 19分钟前

英伟达回归遇阻,谁能替代 H20?

文 | 镜相工作室,作者 | 黄依婷,编辑 | 卢枕

9 月,国内入秋,气温骤降,英伟达重回中国市场的步伐也有些凝滞。

两个月前,仲夏之时,英伟达创始人黄仁勋穿着皮衣落地北京,带来 H20 芯片在中国市场 " 解禁 " 的消息。但没过多久,又传来 H20 停产的风声。

作为中国市场定制的 " 特供芯片 ",H20 深陷 " 后门 " 疑云,被质疑 " 既不安全也不先进 ",市场需求疲软。不愿意放弃中国市场的英伟达,计划推出性能更强的 B30A 芯片,以技术优势重建市场信心。

H20 禁售加上 " 后门 " 疑云,英伟达的空窗期成了国产厂商补位的良机。这半年来,华为、寒武纪等大力推广自家芯片,在政务云等领域市占率飙升,一些科技大厂也开始批量采购国产芯片。

在黄仁勋的最新访谈里,他提及中国在 AI 芯片上落后两三年的说法,驳斥说:" 得了吧,他们只落后我们几纳秒。" 话里话外流露出一种迫切,希望美国放开管制,让英伟达重回中国。

眼下,英伟达回归遇阻,腾出来的市场空白,都有哪些国产 AI 芯片厂商竞逐?谁有机会率先取代 H20?国产 AI 芯片厂商追赶英伟达的路上还有哪些阻碍?

谁在竞逐英伟达的遗留市场?

过去,大多数公司采购算力芯片时,首选必定是英伟达。从生成式 AI 爆发至今,英伟达 GPU 凭借卓越的性能、稳定的驱动和完善的 CUDA 生态,筑起强大的护城河。

据 TechInsights 数据,在 GPU 市场,2023 年全球应用于智算中心的 GPU 总出货量达到了 385 万颗,其中,英伟达的市场份额接近 98%。

垄断性的市场地位,使英伟达成为压在国内外科技大厂心头的大山。在国外,微软、谷歌、亚马逊都在一边狂买英伟达芯片,一边自己造芯;而在国内,受限于政策禁令,AI 公司无法获得先进的英伟达芯片,随时面临断供风险,只能寻找国产替代方案。

好消息是,英伟达留给国产厂商的空间足够大,能容纳多家公司同场竞逐。

今年二季度,受禁售 H20 影响,英伟达中国区营收只有 27.69 亿美元,比去年同期的 37 亿美元下降 24.49%。去年全年,英伟达中国区营收 171.08 亿美元。业绩会上,黄仁勋也预测中国市场年增长率大约 50%,光今年就可能有 500 亿美元的商机。

这数百亿美元的市场,英伟达目前只能干着急。在三季度的业绩指引上,英伟达没有假设任何对华出口 H20 的情形,而这也是中国公司的好机会。

在竞逐 H20 遗留市场的公司里,最被看好的公司是华为和寒武纪。

从单卡性能来看,华为昇腾 910B/C,算力已超过英伟达 H20。除华为外,据行业自媒体 " 半导体综研 " 整理,FP16 算力能达到 300TFLOPS(每秒万亿次浮点运算)以上的国产芯片,只有寒武纪的思元 590;壁仞科技在 2022 年推出的 BR100,其 FP16 算力能达到 1024TFLOPS,但因受到制裁无法量产。其他如百度昆仑芯、阿里平头哥、摩尔线程等自研主流产品都已经接近 H20 水平。

当然,国产芯片的目标不是阉割过的 H20,最先进的国产 GPU 依旧落后英伟达最新产品两代,算力差距约落后 3 倍。但至少,逐渐替代昂贵但不先进的 H20 已经具备可行性。

除了技术追赶上来,外部环境也在变好,发展国产算力的政策扶持不断,互联网巨头和运营商们纷纷加码算力资本开支,为国产 AI 芯片打开了市场空间。

今年以来,国内 AI 芯片厂商业绩突飞猛涨。短暂成为 A 股 " 股王 " 的寒武纪,今年上半年收入 28.81 亿元,同比暴涨了 4348%,首次扭亏为盈,净利润 10 个亿。

华为的大单也源源不断。据行业调研报告,今年昇腾 910B 全年计划出货约 40 万颗,客户主要是运营商和地方算力中心;910C 计划出货 30 万颗,以互联网大厂为主。不久前的华为全联接大会上披露,华为新推出的 CloudMatrix 384 超节点累计部署 300 多套。

阿里平头哥、百度昆仑芯这两家互联网巨头旗下的芯片公司,也有着稳定的内部需求和丰富的应用场景,在充沛的资金下能够快速迭代产品,再反哺互联网大厂的云计算和 AI 业务;摩尔线程、沐曦股份、壁仞科技等新锐也在参与市场竞逐,这些创业公司在技术创新、兼容性设计、市场定位上以灵活见长。

摩尔线程在其 IPO 报表中披露,2025 年上半年营收 7.02 亿元,正在洽谈的 AI 智算领域合同超过 17 亿元,其还与中国移动签署过万卡级合作项目,封装订单规模超 10 亿元。

沐曦股份也曾连续中标两份 AI 训推一体机大单,金额达 14.88 亿元;截至 2025 年 8 月,其在手订单(不含税)为 11.4 亿元,客户涵盖新华三、算丰、汇天网络等。

拿下订单意味着国产 AI 芯片进入到技术迭代和商业变现的良性循环中。摩根士丹利在其最新报告《中国人工智能:沉睡的巨人觉醒》中预测,在外部压力下,中国已全力迈向完全独立,并正在以比预期更快的速度构建自给自足的生态系统,中国人工智能芯片自给率将从去年的 34% 飙升至 2027 年的 82%。

模仿英伟达,还是另走一条路?

追赶英伟达,在一两年以前还是遥不可及的事情。

摆在国产厂商面前的有几座难以逾越的大山:制程优势、供应链稳定性、软件生态。

即便是最先进的国产 AI 芯片,与英伟达的最新产品都有两代的差距,昇腾 910C 单卡 BF16 算力只相当于英伟达 GB200 单卡的 31%。根本原因在于制程落后——华为只能用中芯国际的 7nm 多重曝光工艺(近似 7nm 但良率很低),但英伟达可以用台积电的 3nm 工艺。

国产厂商也面临着供应链不稳定的问题,台积电的良率高达 80%,产量稳定,成本可以随着产能爬坡不断降低,而中芯国际 7nm 工艺良率只有 30% 多。另外一个风险是,地缘摩擦对芯片行业的影响不确定,比如壁仞科技的高端芯片 BR100 由于台积电中止代工,迟迟无法量产。

制程问题还可以找到替代方案,但软件生态没有英伟达十几年的积累,很难在短时间内追赶。国内某机器人公司 CTO 王枫告诉我们,使用 GPU 产品最重要的是考虑工具链的完整性,比如 GPU 之间的互联技术、框架的兼容性、并行计算的编程模型平台。这恰恰是英伟达耗时十多年筑起的高墙。

英伟达生态核心是 CUDA,它就像底层的 Windows 操作系统,全球有 400 多万开发者为它构筑加速库、主流框架和大模型,但 CUDA 只能在英伟达芯片上使用,迁移到其他芯片上就要重写代码,光人力和测试成本就高达数千万元。

因此,生态是英伟达最大的底气。以被阉割的 H20 为例,英伟达降低了 H20 的算力,只有 H100 的 15%,但是保留了 HBM3 显存和 NVLink 技术,就是想用 " 低性能 + 强生态 " 稳住市场地位,让中国公司买更多卡来满足需求。

在硬件性能、软件生态和供应链都落后的情况下,国产厂商根据自身能力和市场需求,走上了不同的追赶路线。

华为是受限最多的一家,但自身有着非常好的产业基础和技术能力,因此选择了 " 全栈自研 ",从芯片、软件、协议到服务器、交换机、存储等,全部自己做。

制程被卡脖子,华为就把两颗 910B 芯片封装在一起使算力翻倍;HBM 存储技术被卡脖子,华为就自研 HBM;卡间互联速率慢,华为就研发对标 NVLink 的灵衢 UB。这些系统级的优化创新避开了制程限制,解决了单卡算力差的问题。

质量不够,数量来凑。沿着这个思路,把很多芯片、内存、网卡像 " 拼乐高 " 一样堆叠在一起,用高速线缆传输数据,就是华为推出的 " 超节点技术 + 集群战略 ",代表性产品 CloudMatrix 384 超节点集群,BF16 算力总和超过了英伟达 NVL72 系统。

华为也在培育生态。想让人用自家的芯片,就得让黏性超高的 CUDA 开发者和应用厂商迁移过来,这需要分两步,第一步是让自家芯片可以兼容 CUDA,第二步是向他们提供基于自家生态的工具和框架。

华为推出的异构计算架构 CANN 对标 CUDA,已经能兼容 80% 的 CUDA API,支持 85% 的 CUDA 算子自动转换,但转换后性能会损耗 15%-20%;CANN 还能兼容 PyTorch、TensorFlow 这些主流框架,华为也自研并开源了 MindSpore 全场景人工智能计算框架,开放灵衢互联 2.0 协议规范,试图吸引更多开发者共同完善生态。

华为做 " 大而全 ",一边模仿一边自研,多数国内厂商则只能做 " 小而美 ",从垂直、细分市场切入,要么兼容英伟达,用性价比撬动客户,要么针对特定需求做定制芯片。

国产厂商最常见的一种做法是 "NV 兼容 ",通过中间件把现有 CUDA 代码映射到国产芯片指令集,让硬件 " 听懂 " 开发者的意图。芯片使用者可以在不大幅重写代码的前提下,把工作任务迁移到国产芯片上运行,降低了使用和切换的门槛。这种做法是市场导向,先靠模仿打开市场,站稳脚跟,让自己活下去,后面才有机会发展自己的生态。

昆仑芯和华为都在验证类似方案,且在一定程度上获得了市场认可。2025 年 8 月下旬,中国移动 2025 年至 2026 年人工智能通用计算设备(推理型)集中采购项目中,百度昆仑芯在 " 类 CUDA 生态 " 标包中几乎包揽前三个分项的头名,总中标订单规模达到十亿级。

做定制芯片的佼佼者是寒武纪。与英伟达所做的通用 GPU 不同,寒武纪的 AI 芯片属于 ASIC(专用集成电路),可以应用于云服务器、边缘计算设备、终端设备上,在对延迟、功耗和成本敏感的场景中,展现出更高的性价比。

不管是兼容模仿,还是全栈自研,都是在用自己最优势的能力,在英伟达的夹缝里寻找突破口,这条路注定坎坷。

追赶英伟达,是漫漫长路

硬件和软件都在缩小差距,但要让市场相信国产厂商的产品可用,是一个极其艰难的过程,尤其对那些已经使用英伟达芯片的开发者。

一个已经在英伟达 GPU 上训练好的大模型,要搬到国产 AI 芯片上运行,中间有两道坎。

第一道坎叫算子对齐。过去十几年,英伟达和全球开发者用 CUDA 写下了海量的算子库。要迁到国产芯片上,就得把一个个算子翻译成国产芯片能听懂的语言。这不是简单的复制粘贴,而是成千上万条代码的 " 逐句翻译 ",需要大量人力和时间。

第二道坎是分布式重构。大模型训练常常需要几百上千张卡一起算,英伟达有自己成熟的沟通协议,H20 的 NVLink 带宽是昇腾 910B 的 2.25 倍,训练万亿参数大模型时,多卡协同效率能高 10%-15%。这在千亿级模型训练里,可能差好几周时间。

有机器人开发经历、目前正从事芯片研发工作的张振尧表示:" 在迁移顺利的情况下,芯片硬件性能能发挥到 70% 到 80%;如果算子勉强适配,可能只有 30% 到 40%。"这也是为什么即便国产芯片在参数表上标注的性能比肩英伟达,真正跑起来却常常不如预期。

王枫的经验印证了这一点。他所在的机器人公司曾经长期使用英伟达 GPU,从 4090、5090 到 H100、H20 都有涉猎。两年来,随着英伟达芯片价格高企、获取困难,他们开始尝试华为昇腾的云端算力。

真正让他焦虑的,并非单纯的硬件,而是新平台、新架构带来的不确定性。英伟达 CUDA 深度绑定在硬件里,几乎所有主流的机器学习框架都得跟它打交道。比如开发者们常用的 PyTorch,对 CUDA 的支持是最全面的,两者无缝衔接,用起来又快又稳定。

王枫曾尝试用华为芯片跑 Llama 等比较流行的几个模型,几乎每个模型都需要华为单独适配后才有可能在它的芯片上运行,这直接导致模型更新滞后。华为芯片目前只适配了 160 多种模型,而在英伟达的芯片上可以直接跑几万种模型。

华为分别推出了对标产品,但在王枫看来,如果没有明显的优势和终端市场需求,这些产品很难撬动市场。这就像平面设计师对 Photoshop、会计师对金蝶软件的依赖,几十年如一日,已经固化成行业习惯,不是所有人都会学习新技术,能学习的也会考虑到机会成本。

中小开发者考虑易用性,对于大公司,整体迁移的成本更是天价。互联网大厂现有的算力基础设施大部分是基于英伟达架构,要是全换成国产,IDC 的供电系统、网络拓扑等底层架构都得改造,改造成本能达到硬件采购价的 2-3 倍。

由于 CUDA 生态更成熟,英伟达集群的运维人力成本也要低很多,而华为集群由于芯片制程问题,体积更大,规模化部署还要额外投入数倍的散热、电力和机房空间成本。

制程问题也造成国产芯片采购成本更高,且供不应求。但由于 H20 的安全问题和断供风险,国产芯片 to G 需求很大,to B 的需求也在增长,迁移是不得已的事情,厂商和客户需要共度时艰。

相比技术和生态上短时间难以弥补的巨大差距,国产厂商更容易发力的地方,是周到的服务和更有吸引力的价格。

张振尧回忆,使用英伟达芯片时,遇到问题只能从开发者论坛、社区的公开文档找答案,很难获得官方工程师的支持," 英伟达的支持体系是很成熟的,但同时也是分层的,不对我们这样的小客户开放 "。

相比之下,和国产芯片供应商接触时,他能直接和原厂工程师反馈问题,对方会派两三个工程师和他们一起去调试,有时候还会拉会,出新的版本给他们做测试,愿意为客户解决一些问题。他说,这在英伟达是不可能发生的。

算力芯片研发人员唐诗(化名)也有类似感受:" 国内芯片卖出去,基本都得有工程师驻场维护,协同客户上线业务,进行开发。"这样的故事也曾发生在华为。据 36 氪报道,华为联合讯飞发布 " 星火一体机 " 的背后,是不惜人力成本,调配了几百名工程师下场帮讯飞调校参数。

在不惜成本的人力投入下,一定程度上弥补了生态和性能的欠缺,让国产厂商撕开了一道口子。短期内,在推理场景和边缘计算方面,国产芯片已经展现出一定的成本优势,但在训练领域,尤其是训练千亿参数以上的大模型,H20 还有比较强的生态和技术优势,暂时还没法被替代。国产芯片还需要两到三年的技术迭代,也需要下游的封装、制造环节同步突围。

产业链上下游整体进步,今年 DeepSeek-R1 模型的发布就是一个很好的例子。在这之前,大多数可被使用的开源模型来自美国,从底层适配开始就很难与中国硬件做好兼容。DeepSeek-R1 发布后,中国在模型和硬件上有了同时可用的方案。

8 月下旬发布的 DeepSeek-V3.1,也针对国产芯片做了优化。不久前,腾讯也宣布已全面适配主流的国产芯片,并希望通过异构计算平台整合多类芯片,提供高性价比的 AI 算力解决方案。越来越多客户加入到国产芯片阵营,替代的速度也会越来越快。

从服务到迁移,从生态到工艺,国产 AI 芯片厂商正经历着一场艰苦的追赶战。他们没有捷径,只能靠人力投入去弥补生态差距,用长期的技术迭代去对冲硬件短板,再忍受工艺成熟之前的高昂成本。这是一个注定不会轻松的过程,是一次软硬件、生态和市场的再造。距离真正替代 H20,国产厂商们还有很长的路要走。

参考资料

36 氪:《围剿英伟达丨深氪》

新浪财经:《英伟达最新特供芯片 RTX 6000D 需求疲软,国内厂商投入自研 AI 芯片》

人民日报:《H20 芯片解禁,怎么看?》

21 世纪经济报道:《从超节点到集群 华为亮出 AI 算力全家桶》

信达证券:《DeepSeek-V3.1 发布,国产 AI 芯片迎接战略性机遇》

东吴证券:《半导体设备行业深度:AI 芯片快速发展,看好国产算力带动后道测试 & 先进封装设备需求》

华创证券:《计算机行业深度研究报告:国产智算芯片,需求强劲,性能生态再进阶》

半导体综研:《全球主流算力芯片参数汇总、整理、对比(修正版)》

chosun:《China aims for 80% AI chip self-sufficiency and 30% share in humanoid robots》

wccftech:《Morgan Stanley Guts SMIC ’ s Huawei AI GPU Revenue By More Than 50% Due To Abysmal Yields》

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容