文 | 舒泽品牌手记
Token 消耗越多,不代表 AI 用得越深。有时候,只是任务一直没有被解决。
一家企业上线客服 Agent 处理退款。系统先识别意图,再调订单系统,查售后规则,生成解释话术,最后调用工单工具。六步推理,三个工具,约 2000 个 Token 跑完,用户得到的结果和人工客服的标准回复差不多。
按公开 API 价格粗算,用低价模型处理这一次,成本可能只是几分钱人民币。它看起来比人工客服处理三分钟便宜很多。接下来用户又追问了两轮,系统继续解释、检索、生成,Token 消耗涨到 8000 到 10000,最后还是转人工。
产品后台会把这次服务记录成一次 AI 接待。用户看到的是另一个结果:问题绕了一圈,还是回到人工。
很多 AI 项目的误判从这里开始。系统确实更忙了,调用量、会话数、平均响应时间、自动化率都能写进周报。可同一任务的重试次数和转人工率也在上升时," 使用增长 " 里就混进了用户被迫多问。
用户继续问一句,后台多一次调用,模型多消耗一段 Token,产品数据也多一条互动记录。表面看,AI 还在服务用户;换到任务结果里,可能只是上一轮没有解决。
过去一年,很多团队习惯用调用次数、使用量、Agent 执行步数证明 AI 进了工作流。一个 Agent 能规划、检索、调用工具、生成报告、发起工单,演示起来确实比普通聊天机器人更像一个能干活的系统。
可一个系统做了很多动作,和它把事情办成,差得很远。
英伟达把 Token 成本推到了基础设施层面。DSX 平台把新一代 AI 基础设施称为 AI factories,官方表述里出现了 lowest token cost、token performance per megawatt 这些指标。它谈的是芯片、系统、软件、设施和合作伙伴技术,落到企业采购侧,就是更低 Token 成本、更快投产、更高单位能源产出。
Google 也把 AI 产品推到更大规模。I/O 2026 上,AI Mode 超过 10 亿月活,AI Overviews 超过 25 亿月活,Gemini App 月活超过 9 亿,Google 每月处理的 Token 超过 3.2 quadrillion,模型 API 每分钟处理约 190 亿 Token。
Token 离开了工程师和模型厂商之间的技术语境,开始进入云账单、企业预算和投资人对 AI 公司的判断里。
传统工厂里,一个零件不合格,一颗芯片坏了,一辆车检测不过,损耗会被标出来。AI 系统没这么清楚。一段回答很长,可能是充分解释,也可能是啰嗦;一次多工具调用可能是在校验风险,也可能是在绕路;用户继续追问,可能是深入协作,也可能是前面没有解决。
废 Token 经常藏在用户下一次追问里。
Token 良率如果要成为一个有用指标,就不能按生成量算,也不能按调用量算。它要从任务结果往回看:用户有没有停止追问,工单有没有关闭,代码有没有通过测试,内容有没有被直接采用,客服有没有减少二次投诉。
一个文档摘要不长,用户拿去就能开会,比一篇漂亮但不能用的长文更有效。一个代码助手输出不多,但一次通过测试,比反复解释设计思路更有效。一个客服 Agent 回答三轮,用户还是转人工,那些看起来便宜的 Token 就没有那么便宜。
追问本身还要再拆一层。用户补充条件,要求 AI 继续加工,拿上一轮结果往下走,这类追问说明 AI 已经进入协作。比如让代码助手继续处理一个边界条件,让文档助手把摘要压成会议纪要,让投研 Agent 再补一个竞品口径。
另一类追问更像返工。用户反复解释同一个诉求,要求 " 重新说一遍 "" 你没理解我的意思 ",最后点了转人工。它在后台也是互动,在用户那里是耐心继续被消耗。
很多 AI 产品不会认真区分这两件事。它们都能被记成会话延长、调用增加、用户更活跃。对外汇报时,增长曲线不错;对用户来说,他只是多花了一轮耐心。
普通聊天机器人答不出来,用户很快知道它不行。Agent 会拆任务、读文件、查数据库、调用工具、写报告、发起工单。它做了很多动作,失败也被拆得更细。一个没有完成的任务,会被分解成很多看起来专业的过程。
法律检索、代码迁移、财务审计、跨系统采购这类任务,很多时候就是要多走几步。少一步,可能漏证据;少一步,可能漏依赖;少一步,可能把风险留给人。法律和代码里的复杂,很多时候是在买确定性。
另一种复杂更像包装。链路很长,工具很多,界面很好看,最后用户还要人工收尾。它没有让任务完成得更好,只让失败过程显得更像产品能力。
把 Agent 链路缩短一半,任务完成率如果没有明显下降,多出来的那一半就值得重看。它可能只是演示成本。
2026 年 4 月,Longju Bai、Zhemin Huang、Xingyao Wang、Jiao Sun、Rada Mihalcea、Erik Brynjolfsson、Alex Pentland、Jiaxin Pei 等人在论文《How Do AI Agents Spend Your Money?》里分析了 SWE-bench Verified 上的 agentic coding 任务。论文里几个数字很刺眼:agentic tasks 消耗的 Token 可比 code reasoning 和 code chat 高 1000 倍;同一任务不同运行的 Token 使用最多相差 30 倍;更高 Token 使用不会自然带来更高准确率,准确率常常在中等成本区间达到峰值后趋于饱和。
这项研究只看了代码任务,不能外推到所有 Agent 场景。客服、法务、销售、投研、财务、采购,每个场景的任务结构都不同。不过代码任务本身边界清楚,结果也相对容易验证:有没有通过测试,有没有修好问题,有没有完成指定任务,都比客服、销售、创意生成这类场景更容易判断。
如果在这种更容易验收的任务里,Token 消耗和准确率都没有稳定线性关系,放到边界更模糊的场景里,问题只会更难被看见。很多 Agent 产品卖的正是 " 更长的链路 ",这也是这组数据值得警惕的地方。
它能查资料、分步骤、调工具、写结论,还能自我检查。用户看见的是一个系统在工作,团队看见的是功能更完整,投资人看见的是更像工作流的产品形态。可完成率没有提高时,复杂度不会替公司创造利润。它会稳定地产生 Token,稳定制造重试,稳定把一部分问题送回人工。
一家电商公司把这类 Agent 接进退款流程以后,每天都有相似请求进来。每天都有几轮解释,每天都有工具调用,每天都有一部分用户转人工。单次成本看着不大,乘上日请求量、重试率和人工兜底,原本看起来轻的自动化,慢慢会变成固定运营成本。
低完成率 Agent 被嵌进日常流程后,成本就有了稳定入口。调用量越高,重试越多,转人工越多,自动化率越容易给人一种项目正在推进的错觉。
移动互联网时代,DAU 曾经很容易讲故事。用户来了,打开了,用了,增长曲线就能画出来。后来大家还是要回到 LTV、CAC、留存和毛利。DAU 是真实使用信号,但它从来不是商业质量的终点。
Token 调用量也有类似风险。它证明有人在用,证明系统在跑,证明账单在增长。它不能证明任务被解决。调用量涨了,任务完成率也涨,这是增长。调用量涨了,重试率、转人工率、二次提问率也涨,说明用户可能只是被迫多问。
以后看 AI 公司,只问 " 调用量涨了多少 " 会越来越粗。
一个任务平均消耗多少 Token,同一任务平均重试几次,最后有没有转人工,AI 生成的结果有没有被人重写,代码有没有通过测试,这些数字会比 " 我们服务了多少次请求 " 更接近公司质量。
靠复杂 Agent 链路包装估值的公司,下一轮融资时就要解释自己的 Token 良率。
Google 能看到 AI 回答之后的动作:用户继续搜索,还是完成了邮件、购物、导航。相比单纯调用量,这些反馈更接近任务完成。
Google 有搜索、邮箱、文档、浏览器、移动系统这些高频场景,也有大规模 Token 处理能力。如果它能把任务反馈接回模型和产品,优化的就不只是模型价格,还有哪些 Token 在真实场景里更有用。
纯 API 模型公司能看到调用量、上下文长度和费用账单,却未必知道用户任务最终有没有完成。客户把 API 接进客服、财务、研发、销售系统,模型公司看到的是消耗,客户看到的是结果。两个视角里的 " 使用增长 ",不一定指向同一件事。
AI 复盘会最先拿出来的,通常是使用人数、会话量、平均响应时间、节省工时、自动化率。这些数字有用,但还不够。客服解释有没有减少二次投诉,AI 生成的内容有没有被重写,代码有没有通过测试,用户那句 " 你没理解我的意思 " 出现了多少次,这些数字更接近 AI 有没有创造价值。
代码能不能通过测试,客服有没有少一次转人工,文档能不能直接拿去开会,这些结果还算容易验收。难的是另一类产品:用户和 AI 聊了二十分钟,最后发一句 " 算了,我自己来 ",后台记录的是一次深度会话,业务上却很难说它完成了什么。
一家企业上线 Agent 后,后台很快会多出调用量、会话数、Token 消耗和自动化率。更该盯的是,用户有没有反复解释同一个问题,最后有没有回到人工。
AI 公司以后绕不开一个问题:这些 Token 到底办成了多少任务。
回答不上来,Agent 越复杂,亏损可能越稳定。