
无论是新模型 V4,还是近期 DeepSeek 的融资消息,无疑都会给智谱和 MiniMax 的股价带来较大波动。4 月 23 日,我们独家报道 DeepSeek 最新估值达到 3000 亿元,目前这个数字已经得到一位 DeepSeek 内部人士的确认。
当前真正卡住智谱和 MiniMax 的不是别的,而是年初龙虾火爆后带来的算力荒。
一位头部大厂算法人员算了一笔账,在同一个项目里改几行代码,不搭 skills,AI 先得读完整套系统的上下文,工程文件、依赖声明和类定义统统加载,单次任务几十万 Token 可能一下就烧完了。去年底同样花 10 块钱能跑完的任务,今年账单上变成了近 20 块。
" 真到了需要复杂推理还原问题的时候,真不如自己手写,AI 的性价比不如大学生,好用还便宜。" 今年以来,智谱 API 价格连涨三次,4 月发布 GLM-5.1 后 Token 价格再度上调 10%,外版 Coding Plan 月付价格几乎翻倍,算下来,第一季度智谱的 API 定价累计上调约 83%。MiniMax 则将之前的 Coding Plan 全面升级为 Token Plan,新增免费额度减少。
做出同样动作的还有阿里和腾讯,他们都将 Coding Plan 下架换成 Token Plan。4 月,阿里云四天内连发三条产品涨价公告,部分项目涨幅最高达 34%。更早的 3 月,腾讯云部分模型价格涨幅高达 463%。这意味着,哪怕成为高阶会员,Token 量大管饱的日子也已经一去不复返了。
智谱 CEO 张鹏上个月在内部会议表示," 未来 12 个月最大问题是算力,不是需求。" 而为了在有限的资源下求生存,MiniMax 创始人闫俊杰表示,虽然公司同期收入增长了 158.9%,但公司内部已经不再盲目追求用户量的绝对值,并宣布,截至 2 月,M2 系列模型的百万 Token 推理成本已较 2025 年 12 月下降了超 50%。
摩根大通最近将智谱与 MiniMax 同列为 " 中国 AI 采用周期的结构性受益者 ",面对同样的算力挤兑,智谱和 MiniMax 交出了截然不同的答卷。
01
算力成了大模型厂商的生死线
春节以来,开发者社区的投诉帖几乎没有停过。Kimi 自 2 月起高峰期常现算力不足,智谱更是一连遭遇了多轮危机,2 月 GLM-5 上线后调用量暴增,API 排队蔓延,部分开发者的长链代码生成任务直接中断。
智谱不得不公开致歉,承认 " 规则透明度不够、GLM-5 灰度节奏太慢、老用户升级机制设计粗糙 ",甚至开启全额退款通道。
4 月 12 日,MiniMax 正式开源 M2.7 模型,首日完成华为昇腾、摩尔线程、沐曦等多款国产 GPU 的 Day-0 适配,宣布通过 MoE 架构优化显著降低了推理成本。但即便如此,用户们吐槽 MiniMax 服务器繁忙、连续掉线、限流的帖子也不在少数。
这种算力短缺的根源在两端的同时失控。需求端,OpenClaw 等智能体应用将 Token 消耗量推高了不止一个数量级。传统对话场景一篇文章消耗几千 Token,一个典型的 Openclaw 自动化任务,其 Token 消耗量是传统对话场景的 3 至 5 倍,在文件整理、代码生成、多轮工具调用等环节,单次任务的上下文携带量成倍增长。
根据智谱发布的 2025 年度财报,公司全年实现营业收入 7.24 亿元,同比增长 131.9%。但营收增速背后是更惊人的亏损扩大,年内亏损达到 47.18 亿元,同比扩大 59.5%,经调整净亏损 31.82 亿元,同比扩大 29.1%。研发开支高达 31.80 亿元,其中支付给第三方算力供应商的计算服务费用占据大头。
张鹏在一次 AI 开源前沿论坛上说:" 所有的技术,包括智能体框架,在很多场景下可以带来十倍级的效率提升,但前提是算力充足。" 在 2026 中关村论坛上,他再次强调:" 大模型未来 12 个月面临的最大问题可能是算力。"
这种 " 增收巨亏 " 的局面并非智谱独有。闫俊杰也不止一次公开表示,用户量的增长和模型厂商收入的增长间并不存在正相关。这恰好解释了当下大模型公司 " 增收不增利 " 的窘境来源。
供给端则被死死卡住。2025 年 5 月,美国商务部升级芯片出口限制,英伟达 H20 被纳入禁售名单。虽然后续 H20 有望重返中国市场,但配额大幅缩减。据 SemiAnalysis 数据,H100 一年期租赁价格从 2025 年 10 月的约 1.70 美元 / 小时 /GPU 涨至 2026 年 3 月的约 2.35 美元 / 小时,涨幅近 40%。
我们独家获悉,某头部大厂更是拿出数百亿的预算从年初就开始求卡,但仍然买卡无门。
据中国信通院数据,2025 年英伟达在中国数据中心市场的份额已从 2022 年的 95% 下滑至 50%,而国产 AI 芯片份额从 12% 增长至 25%。华为昇腾以约 81.2 万块的出货量位居国产第一,市场份额约 49.2%,但与英伟达剩余份额相加仍难以满足爆发式增长的算力需求。
这种供给失衡,让 Token 市场出现了 K 型分化。低成本 " 闲聊型 "Token 价格一降再降,阿里通义千问一度压至 0.0005 元 / 千 Tokens,字节豆包 0.0008 元 / 千 Tokens。这些面向基础场景的 Token,成了黄仁勋口中类似 " 水电煤 " 的基础设施。
而另一端的 " 黄金型 "Token ——长链推理、复杂代码生成、企业私有化部署,价格却一路走高。智谱的 API 定价去年以来已累计提价 83%,而市场需求非但没有减弱,API 调用量反而增长了 400%。算力这把达摩克利斯之剑,落在了所有厂商的脖子上。
02
智谱选保毛利,MiniMax选保份额
算力短缺如同一道共同的紧箍咒,但智谱和 MiniMax 选择了两种截然不同的解脱路径。智谱的打算很清楚,涨价,筛选,保利润。
张鹏在 3 月的一次活动中表示,低价竞争不利于行业发展,上调 API 价格是成本变化的结果。而从今年 2 月至 4 月,智谱用连续三次上调 API 价格来回应了这个判断:Coding Plan 套餐涨 30%,旗舰 API 服务涨 20%,GLM-5 上线后涨 10%,GLM-5.1 再涨 10%。
Anthropic 在海外已经划出了一条清晰的参考线。最近,Anthropic 调整了企业版 Claude Enterprise 的定价模式,从每月最高 200 美元的固定费用,改为每月 20 美元基础费加按实际算力消耗收费。而在涨价的同时,Anthropic 年化收入从 2025 年 1 月的约 10 亿美元,一年后,AnthropicARR 突破 300 亿美元,超过 OpenAI 同期约 250 亿美元的规模。
如今,Anthropic 估值已突破 1 万亿美元,超过了 OpenAI(同期约 8800 亿美元)。
智谱选择跟上。通过连续涨价筛选出高付费意愿的客户,将有限的算力集中在 Vibe Coding(氛围编程)向 Agentic Engineering(智能体工程)演进的高价值场景。
2026 年一季度,智谱 API 定价累计上调 83%,同期调用量却暴增 400%,云端 API 业务毛利率从 3.3% 升至 18.9%。在刚结束的 2025 年财报电话会上,张鹏将智谱定位为 " 中国的 Anthropic",并提出:" 大模型公司商业价值取决于 Token 消耗的规模,而定价权完全取决于模型的智能上界。"
在张鹏看来,能高效处理长链复杂推理任务的高端 Token 永远是稀缺品,而谁掌握了高端 Token 的定价权,谁就能在下一代竞争中占住入口。这正是智谱在毛利率从 56.3% 降至 41% 的背景下,仍坚持聚焦高价值场景的逻辑所在。
MiniMax 则走了一条完全相反的路线,开源、优化、抢规模。2025 年 10 月以来,MiniMax 在不到半年的时间内完成了 M2、M2.1、M2.5 和 M2.7 四代模型迭代。2026 年 4 月 12 日,M2.7 在全球开源。这款 2300 亿参数的 MoE 模型在推理时仅激活 100 亿参数,激活率约 4.3%,极大降低了推理成本。
为了降本,MiniMax 与华为昇腾、摩尔线程、沐曦、昆仑芯等海内外芯片厂商在开源首日完成了 Day-0 适配。摩尔线程基于 MUSA 架构实现了深度调优,在 MTT S5000 上完成高性能推理部署。沐曦曦云 C 系列 GPU 依托全栈自研的 MXMACA 软件栈实现了 " 模型发布即算力就绪 "。
MiniMax 已经拿到了成果。模型调用量爆发,M2 系列文本模型单日 Token 消耗量在 2026 年前两个月较 2025 年 12 月激增 6 倍以上,2 月 ARR 已突破 1.5 亿美元。经调整净亏损约 2.5 亿美元,亏损率显著收窄。
但这也是一场危险的赌注。MiniMaxAPI 客单价明显低于智谱,单位算力的盈利空间被极度压缩。MiniMax 打的是 " 以规模换生态 " 的算盘,闫俊杰的策略是先让 Token 足够便宜,让开发者习惯它的生态,再通过增值服务完成商业闭环。可如果开源生态变现的进度赶不上研发投入的增长,这条路就可能被高成本堵死。
而低价策略能否支撑 Minimax 在下一代模型研发上与智谱、阿里等巨头竞争,仍是未知数。
03
破局关键在"国产芯片"和时间窗口
2025 年度智谱研发开支为 31.8 亿元,算力成本占研发总开支的七成以上,但仍无法满足需求。GLM-5 单次推理的算力消耗是前代 GLM-4.7 的 3 倍,而国产 GPU 的适配优化尚在推进中。
尽管智谱已完成与华为昇腾、寒武纪等 7 大国产芯片的深度优化,长序列部署成本下降 50%,整体算力缺口依然巨大。
海外巨头同样承受着巨大算力紧缺的重压。OpenAI 放弃 Sora 视频生成应用,将算力集中到核心模型开发中。Anthropic 用锁定 AWS 旗下 Trainium 芯片高达 5 吉瓦的算力资源来换取客户稳定性,不只是传统的风险投资。
算力的 " 绞索 " 正在勒紧每一位玩家的脖颈。而在算力的 " 绞索 " 被解除之前,智谱和 MiniMax 各自的探索都只是权宜之计,真正的变数是国产芯片的时间窗口。
2025 年,英伟达在中国市场的 AI 加速卡占有率从 2022 年的约 95% 大幅下滑到约 55%。国产 AI 加速卡总出货量约 165 万张,市占率约 41%。华为昇腾以约 81.2 万张的出货量断层领跑,占国产份额约 49.2%。阿里平头哥、百度昆仑芯、寒武纪、海光信息紧随其后。
在智谱发布的 GLM-5 中,华为昇腾、摩尔线程、寒武纪等国产芯片平台已完成深度推理适配与算子级优化。
更关键的一步可能在 2026 年到来。2026 年 3 月,华为在合作伙伴大会上正式发布了搭载全新昇腾 950PR 的 AI 训练推理加速卡 Atlas 350。这款芯片性能据估计可达英伟达 H20 的近三倍,并且对 CUDA 体系的兼容性已大幅提升,字节跳动、阿里巴巴等大厂都计划采用。
这意味着通往国产 GPU 的高质量替代之路已不是纸上谈兵。这次 DeepSeek V4 跳过英伟达 CUDA 生态,适配的是华为昇腾平台,可能动摇英伟达在 AI 算力市场的主导地位,打破其软件生态垄断。这也正是黄仁勋最近预言的 " 灾难 "。
不过当前 DeepSeek 自身也卡算力。V4 发布时官方明确坦言,V4-Pro 当前高端算力吞吐有限,自身都受高端芯片供给约束,无法向外大规模输出富余算力。
未来的锚点在于,昇腾 950PR 能否在实际部署中兑现百万级高吞吐与低延迟的承诺,国产芯片是否能在 2026 年实现大规模、稳定的 ToB 商用。假设国产芯片能做到大规模稳定商用,让算力成本骤降,届时低价、规模化的路径无疑将占据上风。
留给国内大模型厂商的问题已然清晰,那就是能否在国产算力芯片全面成熟之前,抢先跑通一条脱离英伟达依赖独立发展的路径。
撰写|马文佩、马舒叶