精打细算的 AI 时代到来了

文 | 深流研究所，作者 | 之丰

上周，豆包正式开始收费了。它推出了一个专业版，分成三档价格，最高级的套餐包年费用达到了 5088 元。

紧接着，一向以 " 价格屠夫 " 闻名天下的 DeepSeek，也要更换计价方式。实行新的峰谷定价模式后，每天上午 9 点到 12 点、下午 2 点到 6 点算高峰，调用成本直接翻倍。

图源：DeepSeek 开放平台

所有看似馈赠的礼物，都暗中标好了价格。ChatGPT 今年 2 月初就往免费用户对话框里塞广告，上星期还跑去法国大举招商，广告推送的密度一下子增加。

白嫖 AI 的时代，似乎马上要结束了。去年这时候，各家还在打价格战，现在大家都在想：到底怎么能让 AI 这门生意不再是只进不出的无底洞？

1、商业化落地两头堵

一家 AI 公司想赚钱，无非两条路。要么多收钱，要么少花钱。但现在，两头都堵住了。

过去几年，大家想的都是怎么把用户规模冲上去。毕竟，互联网那套打法太深入人心了。前期疯狂烧钱拉用户，亏钱不要紧，等用户规模够大了，成本自然摊薄。但互联网的边际成本几乎是零，多一个用户访问，服务器成本几乎不涨。

AI 产品更接近制造业逻辑，用户规模冲上去，算力成本也跟着冲上去了。因为 AI 的成本是刚性的。多一个用户问一句话，模型就得实打实跑一次推理，烧一次算力。用户越多，对话越多，烧得就越多。

月活用户 9 亿的 OpenAI 去年净亏损 385 亿美元，到了今年第一季度，情况也没有改善，公司每收入 1 美元，就要赔 1.22 美元。豆包这边，尽管日均 token 调用量已经达到了 180 万亿，日收入却不足 100 万元。

在 ChatGPT 询问 " 如何学习 AI" 的回答底部出现了广告

另一方面，算力供给本身就是稀缺资源，这让算力价格一直被顶在高位，总成本下不来。

现在来看，算力供给的约束是很硬的物理墙，没那么容易突破。先是电。Gartner 预测，2030 年全球数据中心用电量将超过 1200TWh，届时电网供电将无法满足需求。再是芯片。全球高阶 AI 芯片的先进封装几乎全靠台积电，但台积电的产能扩得再快，英伟达一家就能吃掉六成以上，剩下那四成还要被几十家公司抢，有钱也排不到号。

更何况，AI 形态正在从一问一答的 Chatbot，转向需要持续运行的 Agent。Agent 要将人类给的几行任务，转化为在后台进行成百上千次的自我推理、工具调用与记忆吞吐，这个转变对算力的需求是数量级的跃升。

所以说，算力成本面临双重夹击。调用量涨多少，成本就跟着涨多少，规模无法摊薄成本；供给又还无法满足持续攀升的需求，成本降不下来。

那就涨价，多收钱不就行了吗？

在 To B 的生产力场景，提价没问题。毕竟客户买的是解决复杂专业问题的能力，智能上限和真实能力是第一约束，企业能接受为此付出高成本。无论是 Anthropic 的 ARR 暴涨、智谱的股价上天还是 workbuddy 的广受好评，都说明了这一点。

但在 ToC 场景里，情况完全不同。2025 年 ChatGPT 的 9 亿周活跃用户中，个人订阅用户约 5000 万，占比仅约 5%。

国内的付费意愿更低。在 " 免费 + 广告 " 的互联网模式的长期浸泡下，国内用户没有养成为独立软件付费的习惯。5 月初豆包试水订阅时，" 豆包笨还收费 " 就冲上了热搜。

说白了，现在普通用户对 ToC 的 AI 产品是没有忠诚度，谁用起来方便和顺手就用谁。别说提价了，就算从免费到付费，都会赶跑一堆人。

那面前剩下给企业的路就是：在 AI 完成同等任务时，能不能消耗更少的算力资源？

这就是现在整个行业都在干的事情：效率优先。

2、让每一分算力都花得值

从里到外，现在行业每一层都在沿着效率思路做事。

在最底下的硬件层，连英伟达都觉得光靠 GPU 不够了。今年英伟达在 GTC 大会上推出了一种叫 LPU 的新芯片，基于它去年获得技术授权的 Groq 打造，专门优化 AI 推理场景。

怎么理解？GPU 擅长高并发的大规模计算，像一支万人方阵一起冲锋，现在更多是用在大模型的预训练上，去提高智能上限。LPU 像一个精锐小队，擅长快速出击完成任务。日常面向普通用户的推理场景，其实不需要千军万马同时出击，响应又快、又省钱才是性价比最高的。

芯片之上是模型架构。MoE（混合专家架构）这两年成了主流，它的妙处是，模型的总参数可以堆到万亿级别保证脑容量够大，但每次干活只激活其中一小撮参数，做到又强、又省。这可以理解为每次接到任务，一家公司会按需调用，从全体人员中挑选出最合适这个任务的那几个专家去干活。

把激活率压低难，更难的是要选对 " 专家 "，不然该激活的没激活，答案质量就崩了。比如，DeepSeek V4 Pro 总参数 1.6 万亿，每次只激活 490 亿，相当于只动用了 3% 的精锐员工。结果呢？编码能力逼近顶级闭源模型，输出价格只有 GPT-5.5 的八分之一。

腾讯前段时间开源的 hy3 preview 也是这个路数。295B 参数、激活仅 21B，相当于能力接近 300B 级模型，成本却是 20B 级别。上了 OpenRouter 之后开发者涌进来用，除了免费，也是因为这个体量下性价比确实能打。

显然是验证了这个方向走得通，最近腾讯灰度内测的 AI 助手小微用的也同样的思路。小微背后的模型叫 WeLM，总参数 800 亿，但每次只激活 30 亿，激活率低到 3.75%，比目前国内极致成本性能的代表 DeepSeek-V4-Flash（激活率 4.6%）还要低。

为什么要把激活率压这么低？因为以微信月活 14 亿的体量，一旦 " 小微 " 全量开放，每天的推理量是天文数字，模型性价比不够高的话，光电费就能把利润吃干净。所以小微绝大多数日常请求交给又快又便宜的 WeLM，碰上真正的硬骨头也有合作模型兜底。

在模型跑的过程中，还能靠工程巧劲再榨一轮算力。比如 DeepSeek 等等都在用的一招叫 KV 缓存复用，意思是你跟 AI 反复聊同一个话题，系统提示词、常用前缀这些重复内容，不需要每次都从头算，直接调上次的计算结果就行。相当于你通勤次数多了，熟悉路线后就不用每次都重新导航。

除了工程手段，DeepSeek 还给出一个新招，那就是用价格杠杆来优化算力调度。

在 DeepSeek 新的计价方式下，平峰时段价格不变，缓存命中依然压到接近免费。这等于用价格信号把一部分负载从白天引导到夜间低谷期，让原本闲置的算力被利用起来。同一批 GPU，24 小时整体利用率更高，单位成本自然就降低了。

前面说到，到了 Agent 时代，算力的问题是更棘手的。Agent 干活时，大量 token 其实花在了重复搬运信息上，不是真正生产新东西。多个 Agent 协作时更夸张，它们聚在一起，就像开低效会议一样，反复确认已经讨论过的背景。任务越长程，空转越严重。

谷歌的 A2A 协议和 Anthropic 的 MCP 协议就是冲着解决这个问题来的。简单来说，MCP 能让单个 Agent 内部复用上下文，不用每次从头来过；A2A 让多个 Agent 之间共享已有成果，避免重复劳动。一个管内耗，一个管重复，配合起来减少 Agent 协作时的无效推理。

效率优先不只是企业的一厢情愿，用户的需求本身也在分化。

有一个衡量市场 AI 付费意愿的指标叫 LLM Token 支出指数，最近持续走低。指标回落的背后，是用户在加速离开那些昂贵的、参数巨大的前沿模型，转头涌向性价比高、专门优化过的轻量级和 MoE 模型。

图源：Citadel Securities 的报告《Tokennomics》

针对这些现象，最近 Citadel Securities 给出的判断一针见血：前沿人工智能和 " 日常 "（"everyday"）人工智能的使用，正在出现分化的迹象。换句话说，前沿 AI 追求的是智能上限，日常 AI 追求的是极致效率，已经不能用同一把尺子比较两种 AI 路线了。

这不是说前沿模型不重要了。头部大模型依然会不断追求智能上限，这部分的需求也是有的。但大家已经意识到，只有少数专业或者复杂化的场景值得调用昂贵的 AI 模型，大多数场景下其实可以主动降级到性价比更高的模型。

毕竟，一家公司不会让首席分析师去接前台电话，模型使用也是一样，大炮打蚊子只会浪费资源。

而效率优先做成了，企业和用户两头都能受益。企业这头，单次推理成本压下来，利润就能看得见。另一边，企业端成本降下来后，还能反过来打开降价空间。价格一降，原本被价格挡在门外的用户进得来，付费规模才能健康地往上走，形成正向循环。

3、做人人可用的 AI

这段时间，除了 To C 端 AI 产品涨价，巨头们也在缩减内部员工的 token 使用量。

微软已经开始取消内部的 Claude Code 许可，让员工转向自家内部更便宜的 Copilot CLI。亚马逊明确要求员工不要为了用 AI 而用 AI，Meta 也撤下了内部的 token 消耗排行榜。

结果就是，大家被逼着去学习如何最大化利用 token。一个懂行的工程师，确实能把 AI 的账单压得很低。他知道怎么精简提示词、控制上下文长度、避免让模型反复读同一份资料。对他来说，这些都是顺手学习的事。

近期 CSDN 社区上有关节省 token 的技术帖子

但有多少普通用户能读懂这些省 token 的技术帖子，又能每次有意识地控制 token 使用？他们更可能是一直在为远超实际需要的算力买单，自己也不知道如何解决。

这个落差不应该由用户来填。怎么更高性价比地使用 AI，应该从用户身上挪到机制层面。理想的情况是，用户不需要知道背后有几种模型在跑，系统能判断这个简单任务交给便宜的小模型，那个任务复杂才调用贵的模型。就像你用搜索引擎不需要知道后面有多少台服务器在响应你一样。

只有这样，更多像你我这样用 AI 的普通人，才能从这项新技术中受益。

说到底，技术的价值，从来不在于它能做到多极致，而在于它能触达多少人。如果 AI 能力不能为人人所用，它就只是一场精英的狂欢。

就像电力没有走进每一个家庭之前，它只是工厂的特权，互联网铺到每一个县城之前，信息鸿沟照样横亘在那里。AI 也是一样，效率优先不只是一个商业命题，它更是一个技术平权的问题。

从少数人的工具变成所有人的基础设施，是每一次技术革命的关键时刻。而 AI 的普及，不取决于最强的模型理论上能做什么，而取决于大规模跑 AI 的成本能压到多低。现在，AI 正站在这个时刻的门口，效率优先就是推开这扇门的那双手。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

精打细算的 AI 时代到来了

宙世代

一起剪

相关阅读

美光CEO再次暗讽苹果：低价采购是造成内存短缺的关键

二手苹果产品10天涨了1000元 商家：最近苹果设备都涨疯了

REDMI Note累计销量破5亿台！新一代小金刚Note 17系列本月发布

笔记本电脑全线涨价 商家预测7月还要涨20% 提前囤货商户已赚百万

马斯克的智能手机

育碧正版授权！腾讯《舞力全开：派对》今日全平台上线：支持iOS、安卓、鸿蒙

挑战台积电英特尔！三星杀入1.4nm赛道：2029年投产

俄罗斯勒令苹果整改iOS应用预装规则：否则将面临最高40亿卢布罚款

中信建投：金刚石高导热材料替代空间广阔 产业链相关标的具备长期投资价值

苹果或明年将推出新款iPad Pro和重新设计的入门版MacBook Pro

红米这次“缩水”了，但我觉得缩对了。

TCL华星宣布独供REDMI K90至尊版屏幕：165Hz高刷 40+款游戏原生适配

Meta布局AI云业务 拟对外出售额外算力

Kimi K3新一代国产大模型确认本月发布：比DS V4正式版规模还大

谷歌Pixel Camera 10.4正式推送 修复三个影像稳定性问题

最新评论

钛媒体

热门推荐

企业资讯

二手苹果产品10天涨了1000元商家：最近苹果设备都涨疯了

笔记本电脑全线涨价商家预测7月还要涨20% 提前囤货商户已赚百万

中信建投：金刚石高导热材料替代空间广阔产业链相关标的具备长期投资价值

Meta布局AI云业务拟对外出售额外算力

谷歌Pixel Camera 10.4正式推送修复三个影像稳定性问题