国产芯片 , 能否解决智谱和 MiniMax 的算力荒问题

4 月 24 日，DeepSeek 正式发布新模型 V4，以开源、低价、高性能给市场带来冲击，智谱与 MiniMax 双双跳水，市值一度跌超 10% 和 12%。有网友戏称，DeepSeek 果然是国产大模型最严厉的父亲。

无论是新模型 V4，还是近期 DeepSeek 的融资消息，无疑都会给智谱和 MiniMax 的股价带来较大波动。4 月 23 日，我们独家报道 DeepSeek 最新估值达到 3000 亿元，目前这个数字已经得到一位 DeepSeek 内部人士的确认。

当前真正卡住智谱和 MiniMax 的不是别的，而是年初龙虾火爆后带来的算力荒。

一位头部大厂算法人员算了一笔账，在同一个项目里改几行代码，不搭 skills，AI 先得读完整套系统的上下文，工程文件、依赖声明和类定义统统加载，单次任务几十万 Token 可能一下就烧完了。去年底同样花 10 块钱能跑完的任务，今年账单上变成了近 20 块。

" 真到了需要复杂推理还原问题的时候，真不如自己手写，AI 的性价比不如大学生，好用还便宜。" 今年以来，智谱 API 价格连涨三次，4 月发布 GLM-5.1 后 Token 价格再度上调 10%，外版 Coding Plan 月付价格几乎翻倍，算下来，第一季度智谱的 API 定价累计上调约 83%。MiniMax 则将之前的 Coding Plan 全面升级为 Token Plan，新增免费额度减少。

做出同样动作的还有阿里和腾讯，他们都将 Coding Plan 下架换成 Token Plan。4 月，阿里云四天内连发三条产品涨价公告，部分项目涨幅最高达 34%。更早的 3 月，腾讯云部分模型价格涨幅高达 463%。这意味着，哪怕成为高阶会员，Token 量大管饱的日子也已经一去不复返了。

智谱 CEO 张鹏上个月在内部会议表示，" 未来 12 个月最大问题是算力，不是需求。" 而为了在有限的资源下求生存，MiniMax 创始人闫俊杰表示，虽然公司同期收入增长了 158.9%，但公司内部已经不再盲目追求用户量的绝对值，并宣布，截至 2 月，M2 系列模型的百万 Token 推理成本已较 2025 年 12 月下降了超 50%。

摩根大通最近将智谱与 MiniMax 同列为 " 中国 AI 采用周期的结构性受益者 "，面对同样的算力挤兑，智谱和 MiniMax 交出了截然不同的答卷。

算力成了大模型厂商的生死线

春节以来，开发者社区的投诉帖几乎没有停过。Kimi 自 2 月起高峰期常现算力不足，智谱更是一连遭遇了多轮危机，2 月 GLM-5 上线后调用量暴增，API 排队蔓延，部分开发者的长链代码生成任务直接中断。

智谱不得不公开致歉，承认 " 规则透明度不够、GLM-5 灰度节奏太慢、老用户升级机制设计粗糙 "，甚至开启全额退款通道。

4 月 12 日，MiniMax 正式开源 M2.7 模型，首日完成华为昇腾、摩尔线程、沐曦等多款国产 GPU 的 Day-0 适配，宣布通过 MoE 架构优化显著降低了推理成本。但即便如此，用户们吐槽 MiniMax 服务器繁忙、连续掉线、限流的帖子也不在少数。

这种算力短缺的根源在两端的同时失控。需求端，OpenClaw 等智能体应用将 Token 消耗量推高了不止一个数量级。传统对话场景一篇文章消耗几千 Token，一个典型的 Openclaw 自动化任务，其 Token 消耗量是传统对话场景的 3 至 5 倍，在文件整理、代码生成、多轮工具调用等环节，单次任务的上下文携带量成倍增长。

根据智谱发布的 2025 年度财报，公司全年实现营业收入 7.24 亿元，同比增长 131.9%。但营收增速背后是更惊人的亏损扩大，年内亏损达到 47.18 亿元，同比扩大 59.5%，经调整净亏损 31.82 亿元，同比扩大 29.1%。研发开支高达 31.80 亿元，其中支付给第三方算力供应商的计算服务费用占据大头。

张鹏在一次 AI 开源前沿论坛上说：" 所有的技术，包括智能体框架，在很多场景下可以带来十倍级的效率提升，但前提是算力充足。" 在 2026 中关村论坛上，他再次强调：" 大模型未来 12 个月面临的最大问题可能是算力。"

这种 " 增收巨亏 " 的局面并非智谱独有。闫俊杰也不止一次公开表示，用户量的增长和模型厂商收入的增长间并不存在正相关。这恰好解释了当下大模型公司 " 增收不增利 " 的窘境来源。

供给端则被死死卡住。2025 年 5 月，美国商务部升级芯片出口限制，英伟达 H20 被纳入禁售名单。虽然后续 H20 有望重返中国市场，但配额大幅缩减。据 SemiAnalysis 数据，H100 一年期租赁价格从 2025 年 10 月的约 1.70 美元 / 小时 /GPU 涨至 2026 年 3 月的约 2.35 美元 / 小时，涨幅近 40%。

我们独家获悉，某头部大厂更是拿出数百亿的预算从年初就开始求卡，但仍然买卡无门。

据中国信通院数据，2025 年英伟达在中国数据中心市场的份额已从 2022 年的 95% 下滑至 50%，而国产 AI 芯片份额从 12% 增长至 25%。华为昇腾以约 81.2 万块的出货量位居国产第一，市场份额约 49.2%，但与英伟达剩余份额相加仍难以满足爆发式增长的算力需求。

这种供给失衡，让 Token 市场出现了 K 型分化。低成本 " 闲聊型 "Token 价格一降再降，阿里通义千问一度压至 0.0005 元 / 千 Tokens，字节豆包 0.0008 元 / 千 Tokens。这些面向基础场景的 Token，成了黄仁勋口中类似 " 水电煤 " 的基础设施。

而另一端的 " 黄金型 "Token ——长链推理、复杂代码生成、企业私有化部署，价格却一路走高。智谱的 API 定价去年以来已累计提价 83%，而市场需求非但没有减弱，API 调用量反而增长了 400%。算力这把达摩克利斯之剑，落在了所有厂商的脖子上。

智谱选保毛利，MiniMax选保份额

算力短缺如同一道共同的紧箍咒，但智谱和 MiniMax 选择了两种截然不同的解脱路径。智谱的打算很清楚，涨价，筛选，保利润。

张鹏在 3 月的一次活动中表示，低价竞争不利于行业发展，上调 API 价格是成本变化的结果。而从今年 2 月至 4 月，智谱用连续三次上调 API 价格来回应了这个判断：Coding Plan 套餐涨 30%，旗舰 API 服务涨 20%，GLM-5 上线后涨 10%，GLM-5.1 再涨 10%。

Anthropic 在海外已经划出了一条清晰的参考线。最近，Anthropic 调整了企业版 Claude Enterprise 的定价模式，从每月最高 200 美元的固定费用，改为每月 20 美元基础费加按实际算力消耗收费。而在涨价的同时，Anthropic 年化收入从 2025 年 1 月的约 10 亿美元，一年后，AnthropicARR 突破 300 亿美元，超过 OpenAI 同期约 250 亿美元的规模。

如今，Anthropic 估值已突破 1 万亿美元，超过了 OpenAI（同期约 8800 亿美元）。

智谱选择跟上。通过连续涨价筛选出高付费意愿的客户，将有限的算力集中在 Vibe Coding（氛围编程）向 Agentic Engineering（智能体工程）演进的高价值场景。

2026 年一季度，智谱 API 定价累计上调 83%，同期调用量却暴增 400%，云端 API 业务毛利率从 3.3% 升至 18.9%。在刚结束的 2025 年财报电话会上，张鹏将智谱定位为 " 中国的 Anthropic"，并提出：" 大模型公司商业价值取决于 Token 消耗的规模，而定价权完全取决于模型的智能上界。"

在张鹏看来，能高效处理长链复杂推理任务的高端 Token 永远是稀缺品，而谁掌握了高端 Token 的定价权，谁就能在下一代竞争中占住入口。这正是智谱在毛利率从 56.3% 降至 41% 的背景下，仍坚持聚焦高价值场景的逻辑所在。

MiniMax 则走了一条完全相反的路线，开源、优化、抢规模。2025 年 10 月以来，MiniMax 在不到半年的时间内完成了 M2、M2.1、M2.5 和 M2.7 四代模型迭代。2026 年 4 月 12 日，M2.7 在全球开源。这款 2300 亿参数的 MoE 模型在推理时仅激活 100 亿参数，激活率约 4.3%，极大降低了推理成本。

为了降本，MiniMax 与华为昇腾、摩尔线程、沐曦、昆仑芯等海内外芯片厂商在开源首日完成了 Day-0 适配。摩尔线程基于 MUSA 架构实现了深度调优，在 MTT S5000 上完成高性能推理部署。沐曦曦云 C 系列 GPU 依托全栈自研的 MXMACA 软件栈实现了 " 模型发布即算力就绪 "。

MiniMax 已经拿到了成果。模型调用量爆发，M2 系列文本模型单日 Token 消耗量在 2026 年前两个月较 2025 年 12 月激增 6 倍以上，2 月 ARR 已突破 1.5 亿美元。经调整净亏损约 2.5 亿美元，亏损率显著收窄。

但这也是一场危险的赌注。MiniMaxAPI 客单价明显低于智谱，单位算力的盈利空间被极度压缩。MiniMax 打的是 " 以规模换生态 " 的算盘，闫俊杰的策略是先让 Token 足够便宜，让开发者习惯它的生态，再通过增值服务完成商业闭环。可如果开源生态变现的进度赶不上研发投入的增长，这条路就可能被高成本堵死。

而低价策略能否支撑 Minimax 在下一代模型研发上与智谱、阿里等巨头竞争，仍是未知数。

破局关键在"国产芯片"和时间窗口

2025 年度智谱研发开支为 31.8 亿元，算力成本占研发总开支的七成以上，但仍无法满足需求。GLM-5 单次推理的算力消耗是前代 GLM-4.7 的 3 倍，而国产 GPU 的适配优化尚在推进中。

尽管智谱已完成与华为昇腾、寒武纪等 7 大国产芯片的深度优化，长序列部署成本下降 50%，整体算力缺口依然巨大。

海外巨头同样承受着巨大算力紧缺的重压。OpenAI 放弃 Sora 视频生成应用，将算力集中到核心模型开发中。Anthropic 用锁定 AWS 旗下 Trainium 芯片高达 5 吉瓦的算力资源来换取客户稳定性，不只是传统的风险投资。

算力的 " 绞索 " 正在勒紧每一位玩家的脖颈。而在算力的 " 绞索 " 被解除之前，智谱和 MiniMax 各自的探索都只是权宜之计，真正的变数是国产芯片的时间窗口。

2025 年，英伟达在中国市场的 AI 加速卡占有率从 2022 年的约 95% 大幅下滑到约 55%。国产 AI 加速卡总出货量约 165 万张，市占率约 41%。华为昇腾以约 81.2 万张的出货量断层领跑，占国产份额约 49.2%。阿里平头哥、百度昆仑芯、寒武纪、海光信息紧随其后。

在智谱发布的 GLM-5 中，华为昇腾、摩尔线程、寒武纪等国产芯片平台已完成深度推理适配与算子级优化。

更关键的一步可能在 2026 年到来。2026 年 3 月，华为在合作伙伴大会上正式发布了搭载全新昇腾 950PR 的 AI 训练推理加速卡 Atlas 350。这款芯片性能据估计可达英伟达 H20 的近三倍，并且对 CUDA 体系的兼容性已大幅提升，字节跳动、阿里巴巴等大厂都计划采用。

这意味着通往国产 GPU 的高质量替代之路已不是纸上谈兵。这次 DeepSeek V4 跳过英伟达 CUDA 生态，适配的是华为昇腾平台，可能动摇英伟达在 AI 算力市场的主导地位，打破其软件生态垄断。这也正是黄仁勋最近预言的 " 灾难 "。

不过当前 DeepSeek 自身也卡算力。V4 发布时官方明确坦言，V4-Pro 当前高端算力吞吐有限，自身都受高端芯片供给约束，无法向外大规模输出富余算力。

未来的锚点在于，昇腾 950PR 能否在实际部署中兑现百万级高吞吐与低延迟的承诺，国产芯片是否能在 2026 年实现大规模、稳定的 ToB 商用。假设国产芯片能做到大规模稳定商用，让算力成本骤降，届时低价、规模化的路径无疑将占据上风。

留给国内大模型厂商的问题已然清晰，那就是能否在国产算力芯片全面成熟之前，抢先跑通一条脱离英伟达依赖独立发展的路径。

撰写｜马文佩、马舒叶

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

国产芯片 , 能否解决智谱和 MiniMax 的算力荒问题

宙世代

一起剪

相关阅读

主动“认输”的DeepSeek，这次到底行不行？

特朗普取消美方代表赴巴基斯坦行程；华为大阔折开售即售罄

20年烟龄男子戒烟3个月 省下的烟钱铺满一床：直言成就感拉满

美国白宫记者晚宴发生枪击事件，枪手身亡，特朗普紧急撤离

现场画面公开

八千里路云和月：张云魁牺牲，韩小月守寡，万福和玉娇苦尽甘来

陈丽君在《人民日报》发文

《匹兹堡医护前线》第2季：0场大规模枪击，15集＂糟心日常＂更致命

内塔尼亚胡下令：“猛烈打击”

爆款剧被迫续命：1部限定剧如何被资本改写成第2季？

特朗普取消代表团赴巴行程

父母爱情：十年后才看懂，江德福宁可帮安泰，也不愿意帮自家亲戚

这届流量的情绪密码是什么？

戴壳没用！iPhone 17 Pro Max铝合金机身一碰就花：博主直呼苦不堪言

女子在公交站台劝男子吸烟发生争执 官方通报：责令男子改正违法行为 并处以行政罚款

最新评论

企业资讯

热门推荐

企业资讯

20年烟龄男子戒烟3个月省下的烟钱铺满一床：直言成就感拉满

女子在公交站台劝男子吸烟发生争执官方通报：责令男子改正违法行为并处以行政罚款