关于ZAKER Skills 合作
钛媒体 21分钟前

精打细算的 AI 时代到来了

文 | 深流研究所,作者 | 之丰

上周,豆包正式开始收费了。它推出了一个专业版,分成三档价格,最高级的套餐包年费用达到了 5088 元。

紧接着,一向以 " 价格屠夫 " 闻名天下的 DeepSeek,也要更换计价方式。实行新的峰谷定价模式后,每天上午 9 点到 12 点、下午 2 点到 6 点算高峰,调用成本直接翻倍。

图源:DeepSeek 开放平台

所有看似馈赠的礼物,都暗中标好了价格。ChatGPT 今年 2 月初就往免费用户对话框里塞广告,上星期还跑去法国大举招商,广告推送的密度一下子增加。

白嫖 AI 的时代,似乎马上要结束了。去年这时候,各家还在打价格战,现在大家都在想:到底怎么能让 AI 这门生意不再是只进不出的无底洞?

1、商业化落地两头堵

一家 AI 公司想赚钱,无非两条路。要么多收钱,要么少花钱。但现在,两头都堵住了。

过去几年,大家想的都是怎么把用户规模冲上去。毕竟,互联网那套打法太深入人心了。前期疯狂烧钱拉用户,亏钱不要紧,等用户规模够大了,成本自然摊薄。但互联网的边际成本几乎是零,多一个用户访问,服务器成本几乎不涨。

AI 产品更接近制造业逻辑,用户规模冲上去,算力成本也跟着冲上去了。因为 AI 的成本是刚性的。多一个用户问一句话,模型就得实打实跑一次推理,烧一次算力。用户越多,对话越多,烧得就越多。

月活用户 9 亿的 OpenAI 去年净亏损 385 亿美元,到了今年第一季度,情况也没有改善,公司每收入 1 美元,就要赔 1.22 美元。豆包这边,尽管日均 token 调用量已经达到了 180 万亿,日收入却不足 100 万元。

在 ChatGPT 询问 " 如何学习 AI" 的回答底部出现了广告

另一方面,算力供给本身就是稀缺资源,这让算力价格一直被顶在高位,总成本下不来。

现在来看,算力供给的约束是很硬的物理墙,没那么容易突破。先是电。Gartner 预测,2030 年全球数据中心用电量将超过 1200TWh,届时电网供电将无法满足需求。再是芯片。全球高阶 AI 芯片的先进封装几乎全靠台积电,但台积电的产能扩得再快,英伟达一家就能吃掉六成以上,剩下那四成还要被几十家公司抢,有钱也排不到号。

更何况,AI 形态正在从一问一答的 Chatbot,转向需要持续运行的 Agent。Agent 要将人类给的几行任务,转化为在后台进行成百上千次的自我推理、工具调用与记忆吞吐,这个转变对算力的需求是数量级的跃升。

所以说,算力成本面临双重夹击。调用量涨多少,成本就跟着涨多少,规模无法摊薄成本;供给又还无法满足持续攀升的需求,成本降不下来。

那就涨价,多收钱不就行了吗?

在 To B 的生产力场景,提价没问题。毕竟客户买的是解决复杂专业问题的能力,智能上限和真实能力是第一约束,企业能接受为此付出高成本。无论是 Anthropic 的 ARR 暴涨、智谱的股价上天还是 workbuddy 的广受好评,都说明了这一点。

但在 ToC 场景里,情况完全不同。2025 年 ChatGPT 的 9 亿周活跃用户中,个人订阅用户约 5000 万,占比仅约 5%。

国内的付费意愿更低。在 " 免费 + 广告 " 的互联网模式的长期浸泡下,国内用户没有养成为独立软件付费的习惯。5 月初豆包试水订阅时," 豆包 笨还收费 " 就冲上了热搜。

说白了,现在普通用户对 ToC 的 AI 产品是没有忠诚度,谁用起来方便和顺手就用谁。别说提价了,就算从免费到付费,都会赶跑一堆人。

那面前剩下给企业的路就是:在 AI 完成同等任务时,能不能消耗更少的算力资源?

这就是现在整个行业都在干的事情:效率优先。

2、让每一分算力都花得值

从里到外,现在行业每一层都在沿着效率思路做事。

在最底下的硬件层,连英伟达都觉得光靠 GPU 不够了。今年英伟达在 GTC 大会上推出了一种叫 LPU 的新芯片,基于它去年获得技术授权的 Groq 打造,专门优化 AI 推理场景。

怎么理解?GPU 擅长高并发的大规模计算,像一支万人方阵一起冲锋,现在更多是用在大模型的预训练上,去提高智能上限。LPU 像一个精锐小队,擅长快速出击完成任务。日常面向普通用户的推理场景,其实不需要千军万马同时出击,响应又快、又省钱才是性价比最高的。

芯片之上是模型架构。MoE(混合专家架构)这两年成了主流,它的妙处是,模型的总参数可以堆到万亿级别保证脑容量够大,但每次干活只激活其中一小撮参数,做到又强、又省。这可以理解为每次接到任务,一家公司会按需调用,从全体人员中挑选出最合适这个任务的那几个专家去干活。

把激活率压低难,更难的是要选对 " 专家 ",不然该激活的没激活,答案质量就崩了。比如,DeepSeek V4 Pro 总参数 1.6 万亿,每次只激活 490 亿,相当于只动用了 3% 的精锐员工。结果呢?编码能力逼近顶级闭源模型,输出价格只有 GPT-5.5 的八分之一。

腾讯前段时间开源的 hy3 preview 也是这个路数。295B 参数、激活仅 21B,相当于能力接近 300B 级模型,成本却是 20B 级别。上了 OpenRouter 之后开发者涌进来用,除了免费,也是因为这个体量下性价比确实能打。

显然是验证了这个方向走得通,最近腾讯灰度内测的 AI 助手小微用的也同样的思路。小微背后的模型叫 WeLM,总参数 800 亿,但每次只激活 30 亿,激活率低到 3.75%,比目前国内极致成本性能的代表 DeepSeek-V4-Flash(激活率 4.6%)还要低。

为什么要把激活率压这么低?因为以微信月活 14 亿的体量,一旦 " 小微 " 全量开放,每天的推理量是天文数字,模型性价比不够高的话,光电费就能把利润吃干净。所以小微绝大多数日常请求交给又快又便宜的 WeLM,碰上真正的硬骨头也有合作模型兜底。

在模型跑的过程中,还能靠工程巧劲再榨一轮算力。比如 DeepSeek 等等都在用的一招叫 KV 缓存复用,意思是你跟 AI 反复聊同一个话题,系统提示词、常用前缀这些重复内容,不需要每次都从头算,直接调上次的计算结果就行。相当于你通勤次数多了,熟悉路线后就不用每次都重新导航。

除了工程手段,DeepSeek 还给出一个新招,那就是用价格杠杆来优化算力调度。

在 DeepSeek 新的计价方式下,平峰时段价格不变,缓存命中依然压到接近免费。这等于用价格信号把一部分负载从白天引导到夜间低谷期,让原本闲置的算力被利用起来。同一批 GPU,24 小时整体利用率更高,单位成本自然就降低了。

前面说到,到了 Agent 时代,算力的问题是更棘手的。Agent 干活时,大量 token 其实花在了重复搬运信息上,不是真正生产新东西。多个 Agent 协作时更夸张,它们聚在一起,就像开低效会议一样,反复确认已经讨论过的背景。任务越长程,空转越严重。

谷歌的 A2A 协议和 Anthropic 的 MCP 协议就是冲着解决这个问题来的。简单来说,MCP 能让单个 Agent 内部复用上下文,不用每次从头来过;A2A 让多个 Agent 之间共享已有成果,避免重复劳动。一个管内耗,一个管重复,配合起来减少 Agent 协作时的无效推理。

效率优先不只是企业的一厢情愿,用户的需求本身也在分化。

有一个衡量市场 AI 付费意愿的指标叫 LLM Token 支出指数,最近持续走低。指标回落的背后,是用户在加速离开那些昂贵的、参数巨大的前沿模型,转头涌向性价比高、专门优化过的轻量级和 MoE 模型。

图源:Citadel Securities 的报告《Tokennomics》

针对这些现象,最近 Citadel Securities 给出的判断一针见血:前沿人工智能和 " 日常 "("everyday")人工智能的使用,正在出现分化的迹象。换句话说,前沿 AI 追求的是智能上限,日常 AI 追求的是极致效率,已经不能用同一把尺子比较两种 AI 路线了。

这不是说前沿模型不重要了。头部大模型依然会不断追求智能上限,这部分的需求也是有的。但大家已经意识到,只有少数专业或者复杂化的场景值得调用昂贵的 AI 模型,大多数场景下其实可以主动降级到性价比更高的模型。

毕竟,一家公司不会让首席分析师去接前台电话,模型使用也是一样,大炮打蚊子只会浪费资源。

而效率优先做成了,企业和用户两头都能受益。企业这头,单次推理成本压下来,利润就能看得见。另一边,企业端成本降下来后,还能反过来打开降价空间。价格一降,原本被价格挡在门外的用户进得来,付费规模才能健康地往上走,形成正向循环。

3、做人人可用的 AI

这段时间,除了 To C 端 AI 产品涨价,巨头们也在缩减内部员工的 token 使用量。

微软已经开始取消内部的 Claude Code 许可,让员工转向自家内部更便宜的 Copilot CLI。亚马逊明确要求员工不要为了用 AI 而用 AI,Meta 也撤下了内部的 token 消耗排行榜。

结果就是,大家被逼着去学习如何最大化利用 token。一个懂行的工程师,确实能把 AI 的账单压得很低。他知道怎么精简提示词、控制上下文长度、避免让模型反复读同一份资料。对他来说,这些都是顺手学习的事。

近期 CSDN 社区上有关节省 token 的技术帖子

但有多少普通用户能读懂这些省 token 的技术帖子,又能每次有意识地控制 token 使用?他们更可能是一直在为远超实际需要的算力买单,自己也不知道如何解决。

这个落差不应该由用户来填。怎么更高性价比地使用 AI,应该从用户身上挪到机制层面。理想的情况是,用户不需要知道背后有几种模型在跑,系统能判断这个简单任务交给便宜的小模型,那个任务复杂才调用贵的模型。就像你用搜索引擎不需要知道后面有多少台服务器在响应你一样。

只有这样,更多像你我这样用 AI 的普通人,才能从这项新技术中受益。

说到底,技术的价值,从来不在于它能做到多极致,而在于它能触达多少人。如果 AI 能力不能为人人所用,它就只是一场精英的狂欢。

就像电力没有走进每一个家庭之前,它只是工厂的特权,互联网铺到每一个县城之前,信息鸿沟照样横亘在那里。AI 也是一样,效率优先不只是一个商业命题,它更是一个技术平权的问题。

从少数人的工具变成所有人的基础设施,是每一次技术革命的关键时刻。而 AI 的普及,不取决于最强的模型理论上能做什么,而取决于大规模跑 AI 的成本能压到多低。现在,AI 正站在这个时刻的门口,效率优先就是推开这扇门的那双手。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容