关于ZAKER 合作
新浪财经 1小时前

传昇腾 950PR 获字节和阿里巴巴大单 ! 销售预计过 500 亿 !

来源:市场资讯

(来源:电子创新网)

据外媒报道,据两位知情人士透露(作者注:未经产业核实,请慎重对待此消息)华为昇腾 950PR 在中国客户测试进展顺利,包括字节跳动和阿里巴巴在内的多家科技巨头计划下单。

这一进展对华为而言具有里程碑意义,对中国 AI 市场也具有重要里程碑意义。据透露,本土互联网大厂此次计划更广泛地使用新款 950PR 芯片,因为该芯片与英伟达 CUDA 软件系统的兼容性更强,响应速度也更快,这让他们更加满意。

据透露,华为计划今年出货约 75 万颗 950PR 芯片,采用传统 DDR 显存的 950PR 显卡售价约为每张 5 万元人民币(约合 6900 美元),而配备速度更快的 HBM 显存的高端版本售价约为 7 万元人民币。如果以昇腾 950PR 单卡售价 7 万元(HBM 版)计算,此次销售营收合计 525 亿元!

此前,华为一直坚持使用其自主研发的 CANN 软件系统,而昇腾 950PR 将使此前普遍使用英伟达软件系统的中国科技公司开发者能够更轻松地迁移这些模型。

2025 年 9 月 18 日,在华为全联接大会上,华为副董事长、轮值董事长徐直军在 " 以开创的超节点互联技术,引领 AI 基础设施新范式 " 主题演讲中披露了华为接下来三年的昇腾芯片规划和演进方向。徐直军披露 2026 年第一季度将要发布昇腾 950PR,2026 年年第四季度发布昇腾 950DT。2027 年第四季度要发布昇腾 960、2028 年发布昇腾 970。

2025 年,英伟达一直推动其 H200 在中国的销售,这里将 H200 与昇腾 950PR 做一对比。

一、核心规格对比(关键参数)

指标

华为昇腾 950PR

NVIDIA H200

架构定位

AI 推理优化(兼顾训练)

通用 AI 训练 + 推理

计算精度优势

FP4 / FP8 强

FP8 / FP16 强

FP8 算力

~1 PFLOPS

~2 PFLOPS

FP4 算力

~1.5 – 2 PFLOPS(优势项)

不支持 / 弱

显存

~112GB HBM(HiBL)

141GB HBM3e

显存带宽

~1.4 TB/s

~4.8 TB/s

互联

自研互联(~2TB/s 级)

NVLink(~900GB/s)

功耗

~600W

~650 – 800W

一句话总结:单卡硬件能力:H200 仍明显更强(尤其带宽)低精度推理:昇腾 950PR 有结构性优势

二、性能本质差异(重点)

1 单卡算力:H200 仍领先

结论:训练、大模型计算 → H200 更强

2 低精度推理:950PR" 弯道超车 "

关键变化:LLM 推理正在从 FP16 → FP8 → FP4,华为直接 " 跳两代精度 " 结论:推理(尤其大模型在线服务)→ 950PR 更有性价比潜力

3 内存与带宽:H200 碾压

H200:~4.8 TB/s

950PR:~1.4 TB/s

这点极其关键:LLM 瓶颈 = memory bound。带宽直接决定 token 吞吐 结论:大模型训练 / 长上下文推理 → H200 优势明显

4 多卡集群能力(真正分水岭)

H200:

950PR:

结论:超大模型训练 → NVIDIA 仍是唯一解

三、架构思路差异(非常关键)

本质:" 通用加速器 + CUDA 生态统治 "

特点:

强 Tensor Core

高带宽 HBM

CUDA 锁死开发者

华为昇腾 950PR,本质:" 为 AI 推理重构的专用芯片 "

极致低精度(FP4)

KV cache 友好

更像 "AI 推理 ASIC"

四、生态对比(决定胜负)

NVIDIA

结论:生态 = 护城河

华为昇腾

MindSpore + CANN

正在兼容 CUDA 生态

关键变化:过去最大短板:软件。现在在补:兼容层

五、价格 & 商业现实

950PR:约 $6,000 – $10,000

H200:通常 $20,000+(行业区间)

结论:价格差:2 – 3 倍

可以理解为:NVIDIA 的产品是 "AI 时代的 Intel(通用计算)" 而华为昇腾:则是 "AI 时代的 ASIC(场景优化)"。H200 = 天花板性能 + 生态垄断 950PR = 成本优势 + 推理重构路径】,所以在推理规模化普及的今天加之大模型训推本土化,昇腾 950PR 可能更受青睐!

在刚刚结束的华为中国合作伙伴大会 2026 上,华为重磅发布并展出了搭载全新昇腾 950PR(Ascend 950PR)处理器的 AI 训练推理加速卡 Atlas 350。据华为介绍,Atlas 350 的单卡算力达到了英伟达 H20 的 2.87 倍,是目前国内唯一支持 FP4 低精度的推理产品;HBM(高带宽内存)容量是 H20 的 1.16 倍,达到了 112GB,多模态生成速度可以提升 60%;内存访问颗粒度从 512 字节减少到 128 字节,小算子访存效率提升 4 倍。

看来,国产算力芯片已经逐步追上来了!那更进一步,如同英伟达链一样,随着国产算力芯片崛起,也一定会带动本土算力产业链各个环节如封测、线缆、电源、光器件走强!

对此,大家怎么看?会有哪些产业链上的企业受益呢?欢迎留言讨论!

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容