" 可以通过芯片一定的专用化和系统端的优化,来弥补与国外的差距。"4 月 14 日,在中科曙光发布中国最大 6 万卡 AI4S 计算集群之际,公司高级副总裁李斌面对媒体的这句表态,若孤立来看,不过是国产算力企业对 " 如何追赶 " 的又一次技术性回应。
但如果将其嵌入中科曙光的战略布局——全球首个单机柜级 640 卡超节点、全栈自研 400G 无损高速网络 scaleFabric、浸没相变液冷技术将 PUE 压至 1.04、scaleX 万卡超集群部分技术指标超越海外同类产品 2027 年路线图节点——就会发现,这句话里藏着国产算力产业最深刻的一次路径范式转移。
李斌所言的 " 芯片专用化 + 系统端优化 ",不是对国产芯片单卡性能差距的被动妥协,而是一场从 " 暴力计算 " 到 " 系统工程 " 的主动范式切换——当海外巨头还在用更先进制程的通用 GPU 堆算力时,中科曙光选择了一条更务实的路径:用专用芯片匹配特定场景,用系统级协同把每一张国产加速卡的利用率榨干到极致。
要理解这场范式转移的分量,需要先看清算力竞争的核心矛盾已发生质变。过去,算力的提升主要依赖于 GPU 等单一处理器性能的迭代。但当大模型参数向万亿级甚至十万亿级跨越时," 暴力计算 " 模式正在触碰物理与效率的极限。传统集群在规模扩大后,通信开销往往占用 30%-50% 的资源,芯片算得再快,数据传不动、存不下、散热跟不上,整体效率依然被迅速稀释。
这正是李斌 " 芯片专用化 " 逻辑的第一层精妙之处——不是做一颗 " 什么都行 " 的通用芯片,而是面向大模型训练、科学计算等特定场景做架构级定制,把有限的晶体管预算用在最需要的计算模式上。而 " 系统端优化 " 则是第二层更具战略纵深的布局:中科曙光的 scaleFabric 网络端到端时延低至 0.9 微秒,链路故障恢复小于 1 毫秒,单子网互连规模达传统 InfiniBand 的 2.33 倍,理论可支持最大 11.4 万卡集群部署。通过 " 超级隧道 " 技术实现芯片级、系统级到应用级的三级数据传输协同优化,AI 加速卡资源利用率可提高 55%。
从单卡算力焦虑,到系统效率为王,国产算力的竞争逻辑正在被李斌和他的团队一毫米一毫米地重塑。当英伟达的封闭生态仍在用更先进制程的通用 GPU 定义行业标准时,中科曙光选择了一条更开放、更务实的路径:用 AI 计算开放架构协同 20 多家产业链企业,从技术 " 单点突围 " 走向产业 " 生态共进 "。
算力竞赛从来不是一场百米冲刺,而是一场接力马拉松。那些不再纠结于 " 单卡参数比英伟达差多少 " 的人,才能在 " 万卡集群能不能稳定跑起来 " 这道真正的产业命题上,交出属于自己的答案——因为决定 AI 能走多远的,从来不是某一块芯片的峰值算力,而是整个系统日复一日、夜复一夜的稳定协同。