文 | 深观商业
如果说两年前的 "H800 禁售令 " 引发的是中国客户恐慌性的囤货狂潮,当英伟达再次交出一份全球营收创新高但中国区占比滑落至 10% 警戒线的财报时,市场的情绪已经从恐慌转为了冷漠。
面对华尔街分析师关于 " 特供版芯片在中国市场订单不及预期 " 的尖锐追问,这位身穿标志性皮衣的 CEO 罕见地陷入了沉默。他试图用 " 复杂的监管环境 " 来搪塞,但所有人都听出了潜台词中的无力感。
当为了合规而自我阉割的特供版芯片,在性能上被国产 " 新贵 " 们逼平,在价格上又因高昂的供应链成本而居高不下时。那个曾经只要在 PPT 上画出一张卡,就能让中国互联网巨头提着现金排队的时代,已经彻底终结了。
精准的刀法与失衡的性价比
英伟达再次推出针对中国市场的特供芯片 H20 时,其算盘打得极其精明:通过降低芯片的峰值性能以符合美国出口管制要求,同时保留高速互联带宽和 CUDA 生态的兼容性。在英伟达看来,这是中国客户在 " 算力饥渴 " 下的唯一解药。
市场用脚投出的票,却给了这种傲慢一记响亮的耳光。为了满足美国对 " 算力密度 " 和 " 互联带宽 " 的双重限制,H20 几乎被 " 阉割 " 得面目全非。这就导致 H20 在实际的大规模训练集群中,其有效算力甚至不如两年前囤积的 H800。
从技术逻辑上看,AI 大模型的训练确实依赖高带宽,但推理和微调场景对算力密度的要求同样严苛。H20 为了合规,将算力 " 阉割 " 到了 H100 的 20% 甚至更低,但其晶圆面积、封装成本并没有显著下降。
这就导致了一个极其荒谬的 TCO 模型:中国客户需要购买比过去多出三倍甚至五倍数量的显卡,租用更大的机房空间,消耗更多的电力,搭建更复杂的网络拓扑,仅仅是为了达到两年前一张 A100 卡就能解决的算力水平。
对于精打细算的中国互联网大厂和智算中心运营商来说,这笔账怎么算都是亏的。所以 H20 的渠道价格就开始出现松动,从最初预期的 1.2 万— 1.5 万美元高位,一路下探至 10 万元人民币左右,甚至在某些大单采购中出现了比昇腾 910B 还要低的价格倒挂。
英伟达仿佛陷入了一个死循环:为了合规,必须降低性能;为了维持高毛利和应对复杂的供应链合规成本,价格无法大幅下调;而性能下降、价格坚挺的结果,就是彻底将中低端市场和推理市场拱手让人。
这种局面的出现,并非英伟达技术不行了,而是竞争参照系变了。摩尔线程是这群新贵中最具代表性的一员。如果不说它是国产,你甚至会以为它是英伟达的某个 " 中国分部 "。摩尔线程极度强调 " 全功能 GPU" 的概念。
不仅能做 AI 计算,还要能做 3D 图形渲染、视频编解码。这种策略极其聪明地切入了英伟达的腹地,它不仅想替代 A100/H100,还想替代 RTX 系列。在 2024 年到 2025 年的窗口期,摩尔线程的 " 夸娥 " 万卡集群解决方案开始在业界崭露头角。
它解决了一个核心痛点:对于那些不想被生态完全绑定,又买不到满血英伟达的中型企业和科研机构来说,需要一个架构上更接近传统 GPU、迁移成本更低的替代方案。摩尔线程的 MUSA 架构在设计之初就考虑了对 CUDA 代码的兼容性,大大降低了开发者的迁移门槛。
其市值已悍然站上 3000 亿元人民币大关,成为 " 国产 GPU 第一股 " 在科创板站稳了脚步。摩尔线程从受理到过会仅用时 88 天,也创下了科创板的 " 闪电纪录 ",对于一家成立仅 5 年的公司而言,这种 " 跑步上市 " 的盛况,在 A 股历史上极为罕见。
与此同时,壁仞科技在港交所的招股进入最后冲刺阶段,拟募资额接近 50 亿港元。翻开招股书,这些 " 独角兽 " 的财务报表依旧是 " 鲜血淋漓 ",基石投资者名单中也不乏顶级国资与险资的身影。
国产算力不再仅仅是 " 备胎 "
二级市场给予的高估值,透支的是未来十年的预期。投资者赌的不仅是某一家公司的技术,更是赌在中国这个全球最大的半导体消费市场中,必然会诞生一到两家能与英伟达分庭抗礼的巨头。
从昇腾 910C 在核心训练集群的规模化部署,到 DeepSeek 等头部大模型厂商公开为国产算力站台,中国芯片厂商不再是 " 备胎 ",而是真正坐上了牌桌。对于面临巨大盈利压力的云厂商来说,继续迷信英伟达,就是对股东不负责任。
字节跳动、阿里巴巴、腾讯等互联网巨头,在 2025 年的算力采购策略上表现出了惊人的一致性。不约而同地将英伟达的存量高端卡集中用于极少数超大模型的预训练,而在占据算力消耗 80% 以上的推理和微调环节,激进地引入国产算力。
字节跳动在 2025 年的推荐算法集群中,非英伟达芯片的占比更是首次突破了 40%。推荐算法可以说是字节跳动的利润奶牛,敢于在核心业务上动刀,说明国产芯片的稳定性已经通过了最严苛的实战考验。
如果说商业逻辑的转变是水面上的波澜,那么制造环节的惊心动魄则是水面下的暗流。美国商务部在今年进一步收紧了对华出口 HBM 的限制。不仅是顶级的 HBM3e,连基础版本的 HBM3 也被列入了严控范围。
这对于试图追赶英伟达的国产 GPU 厂商来说,无异于釜底抽薪。没有 HBM,高端 GPU 就是一块废硅。国产 GPU 厂商开始学会 " 看菜吃饭 ",既然买不到最好的 HBM,那就通过架构创新来弥补。
摩尔线程和壁仞科技在 2025 年推出的新一代产品中,普遍采用了更大的片上 SRAM 缓存和优化的显存压缩算法,以降低对显存带宽的依赖。这种 " 穷人家的孩子早当家 " 的设计思路,虽然在极限性能上不如英伟达的暴力堆料,但在实际工程应用中却展现出了极高的效率。
通富微电、长电科技等国内封测巨头,在国产 2.5D 封装技术上也取得了实质性突破。尽管良率初期惨不忍睹,但依靠国内庞大的市场需求进行 " 暴力迭代 ",到了 2025 年第三季度,这一数字已经被拉升至 40% — 60% 的区间。
虽然与台积电 90% 以上的成熟良率相比仍显稚嫩,但这已经跨越了 " 商业化量产 " 的盈亏平衡点。这意味着,国产大芯片不再是实验室里的展品,而是可以源源不断流向数据中心的工业品。
从 " 能用 " 到 " 好用 "
长期以来,英伟达最坚固的壁垒并非 GPU 本身,而是 CUDA。那个让无数开发者 " 不得不爱 " 的软件生态,曾被认为是国产芯片不可逾越的天堑。这个庞大、复杂且极其好用的软件生态,像毒品一样让全球的开发者欲罢不能。
在中国,过去十年的 AI 繁荣也是建立在 CUDA 之上的。因此,英伟达曾自信地认为:只要 CUDA 还在,中国客户就逃不出我的手掌心。但当 " 买不到 " 成为常态,依赖 CUDA 就变成了一种巨大的经营风险。
对于中国企业而言,如果底层的算力基座构建在随时可能被切断的 CUDA 之上,那么上层的万丈高楼皆为虚幻。这种安全意识的觉醒,促使整个行业开始联手构建属于中国自己的软件标准。
而这道天堑被填平的速度,超出了所有人的预期。以摩尔线程和壁仞为代表,通过兼容 CUDA 代码,降低迁移成本。摩尔线程的 MUSA 在 2025 年开发者大会上展示了惊人的兼容性,数万行代码的迁移时间被压缩到了小时级。
在 2025 年,绝大多数算法工程师不再需要手写底层的 CUDA 算子。通过编译器技术的突破,开发者只需关注上层的 Python 代码,底层的适配工作由编译器自动分发到不同的后端,无论是 Nvidia GPU,还是 Ascend,亦或是海光 DCU。
技术层面的 " 去 CUDA 化 " 正在加速。百度飞桨、阿里通义千问、腾讯混元大模型,都在底层代码层面做了大量的适配工作。通过编译器优化、算子库重写以及自动转换工具,在主流的大模型训练和推理任务中,这种差距已经被缩小到了 " 可接受 " 的范围。
这种 " 去底层化 " 的趋势,极大地降低了国产芯片的迁移门槛。更重要的是,围绕 CANN 形成了一个庞大的开发者社区。在 GitHub 和 Gitee 上,针对昇腾芯片的模型适配代码库数量在 2025 年呈现出指数级增长。
除了在大模型训练端的厮杀,国产 GPU 开始渗透进渲染、数字孪生、云游戏等边缘市场。摩尔线程的 " 夸娥 " 千卡集群在数字人渲染上的应用,证明了 GPU 不仅仅只有 AI 这一条路可走。
海光信息在 2025 年财报中也披露,其 DCU 产品在通算领域的生态兼容性已达到 95% 以上。
当软件不再是瓶颈,硬件的性价比优势就会被无限放大。在占据市场 90% 份额的成熟模型训练和推理场景中,CUDA 的 " 神谕 " 地位已经动摇。
当然我们必须清醒地看到," 碎片化 " 依然是国产 GPU 的顽疾。海光有 DCU,摩尔线程有 MUSA,壁仞有 BIRENSUPA ……每一家都有一套自己的编程模型。对于下游软件开发商来说,适配这七八套系统简直是噩梦。
2025 年下半年,行业内开始出现整合的呼声。虽然物理层面的合并尚早,但软件层面的互通标准,例如 OpenCL 的某些国产化变体开始被提上日程。谁能统一这个破碎的江湖,谁就是下一个时代的盟主。
2024 年英伟达在中国市场的份额一度高达 80% 以上,而到了 2025 年底,这一数字被压缩至 60% 左右。这丢失的 20%,是被 " 四小龙 " 硬生生啃下来的,但是对于这些芯片新贵而言,IPO 敲钟的那一刻,才是真正残酷淘汰赛的开始。