AI Agent 越复杂，亏损可能越稳定

文 | 舒泽品牌手记

Token 消耗越多，不代表 AI 用得越深。有时候，只是任务一直没有被解决。

一家企业上线客服 Agent 处理退款。系统先识别意图，再调订单系统，查售后规则，生成解释话术，最后调用工单工具。六步推理，三个工具，约 2000 个 Token 跑完，用户得到的结果和人工客服的标准回复差不多。

按公开 API 价格粗算，用低价模型处理这一次，成本可能只是几分钱人民币。它看起来比人工客服处理三分钟便宜很多。接下来用户又追问了两轮，系统继续解释、检索、生成，Token 消耗涨到 8000 到 10000，最后还是转人工。

产品后台会把这次服务记录成一次 AI 接待。用户看到的是另一个结果：问题绕了一圈，还是回到人工。

很多 AI 项目的误判从这里开始。系统确实更忙了，调用量、会话数、平均响应时间、自动化率都能写进周报。可同一任务的重试次数和转人工率也在上升时，" 使用增长 " 里就混进了用户被迫多问。

用户继续问一句，后台多一次调用，模型多消耗一段 Token，产品数据也多一条互动记录。表面看，AI 还在服务用户；换到任务结果里，可能只是上一轮没有解决。

过去一年，很多团队习惯用调用次数、使用量、Agent 执行步数证明 AI 进了工作流。一个 Agent 能规划、检索、调用工具、生成报告、发起工单，演示起来确实比普通聊天机器人更像一个能干活的系统。

可一个系统做了很多动作，和它把事情办成，差得很远。

英伟达把 Token 成本推到了基础设施层面。DSX 平台把新一代 AI 基础设施称为 AI factories，官方表述里出现了 lowest token cost、token performance per megawatt 这些指标。它谈的是芯片、系统、软件、设施和合作伙伴技术，落到企业采购侧，就是更低 Token 成本、更快投产、更高单位能源产出。

Google 也把 AI 产品推到更大规模。I/O 2026 上，AI Mode 超过 10 亿月活，AI Overviews 超过 25 亿月活，Gemini App 月活超过 9 亿，Google 每月处理的 Token 超过 3.2 quadrillion，模型 API 每分钟处理约 190 亿 Token。

Token 离开了工程师和模型厂商之间的技术语境，开始进入云账单、企业预算和投资人对 AI 公司的判断里。

传统工厂里，一个零件不合格，一颗芯片坏了，一辆车检测不过，损耗会被标出来。AI 系统没这么清楚。一段回答很长，可能是充分解释，也可能是啰嗦；一次多工具调用可能是在校验风险，也可能是在绕路；用户继续追问，可能是深入协作，也可能是前面没有解决。

废 Token 经常藏在用户下一次追问里。

Token 良率如果要成为一个有用指标，就不能按生成量算，也不能按调用量算。它要从任务结果往回看：用户有没有停止追问，工单有没有关闭，代码有没有通过测试，内容有没有被直接采用，客服有没有减少二次投诉。

一个文档摘要不长，用户拿去就能开会，比一篇漂亮但不能用的长文更有效。一个代码助手输出不多，但一次通过测试，比反复解释设计思路更有效。一个客服 Agent 回答三轮，用户还是转人工，那些看起来便宜的 Token 就没有那么便宜。

追问本身还要再拆一层。用户补充条件，要求 AI 继续加工，拿上一轮结果往下走，这类追问说明 AI 已经进入协作。比如让代码助手继续处理一个边界条件，让文档助手把摘要压成会议纪要，让投研 Agent 再补一个竞品口径。

另一类追问更像返工。用户反复解释同一个诉求，要求 " 重新说一遍 "" 你没理解我的意思 "，最后点了转人工。它在后台也是互动，在用户那里是耐心继续被消耗。

很多 AI 产品不会认真区分这两件事。它们都能被记成会话延长、调用增加、用户更活跃。对外汇报时，增长曲线不错；对用户来说，他只是多花了一轮耐心。

普通聊天机器人答不出来，用户很快知道它不行。Agent 会拆任务、读文件、查数据库、调用工具、写报告、发起工单。它做了很多动作，失败也被拆得更细。一个没有完成的任务，会被分解成很多看起来专业的过程。

法律检索、代码迁移、财务审计、跨系统采购这类任务，很多时候就是要多走几步。少一步，可能漏证据；少一步，可能漏依赖；少一步，可能把风险留给人。法律和代码里的复杂，很多时候是在买确定性。

另一种复杂更像包装。链路很长，工具很多，界面很好看，最后用户还要人工收尾。它没有让任务完成得更好，只让失败过程显得更像产品能力。

把 Agent 链路缩短一半，任务完成率如果没有明显下降，多出来的那一半就值得重看。它可能只是演示成本。

2026 年 4 月，Longju Bai、Zhemin Huang、Xingyao Wang、Jiao Sun、Rada Mihalcea、Erik Brynjolfsson、Alex Pentland、Jiaxin Pei 等人在论文《How Do AI Agents Spend Your Money?》里分析了 SWE-bench Verified 上的 agentic coding 任务。论文里几个数字很刺眼：agentic tasks 消耗的 Token 可比 code reasoning 和 code chat 高 1000 倍；同一任务不同运行的 Token 使用最多相差 30 倍；更高 Token 使用不会自然带来更高准确率，准确率常常在中等成本区间达到峰值后趋于饱和。

这项研究只看了代码任务，不能外推到所有 Agent 场景。客服、法务、销售、投研、财务、采购，每个场景的任务结构都不同。不过代码任务本身边界清楚，结果也相对容易验证：有没有通过测试，有没有修好问题，有没有完成指定任务，都比客服、销售、创意生成这类场景更容易判断。

如果在这种更容易验收的任务里，Token 消耗和准确率都没有稳定线性关系，放到边界更模糊的场景里，问题只会更难被看见。很多 Agent 产品卖的正是 " 更长的链路 "，这也是这组数据值得警惕的地方。

它能查资料、分步骤、调工具、写结论，还能自我检查。用户看见的是一个系统在工作，团队看见的是功能更完整，投资人看见的是更像工作流的产品形态。可完成率没有提高时，复杂度不会替公司创造利润。它会稳定地产生 Token，稳定制造重试，稳定把一部分问题送回人工。

一家电商公司把这类 Agent 接进退款流程以后，每天都有相似请求进来。每天都有几轮解释，每天都有工具调用，每天都有一部分用户转人工。单次成本看着不大，乘上日请求量、重试率和人工兜底，原本看起来轻的自动化，慢慢会变成固定运营成本。

低完成率 Agent 被嵌进日常流程后，成本就有了稳定入口。调用量越高，重试越多，转人工越多，自动化率越容易给人一种项目正在推进的错觉。

移动互联网时代，DAU 曾经很容易讲故事。用户来了，打开了，用了，增长曲线就能画出来。后来大家还是要回到 LTV、CAC、留存和毛利。DAU 是真实使用信号，但它从来不是商业质量的终点。

Token 调用量也有类似风险。它证明有人在用，证明系统在跑，证明账单在增长。它不能证明任务被解决。调用量涨了，任务完成率也涨，这是增长。调用量涨了，重试率、转人工率、二次提问率也涨，说明用户可能只是被迫多问。

以后看 AI 公司，只问 " 调用量涨了多少 " 会越来越粗。

一个任务平均消耗多少 Token，同一任务平均重试几次，最后有没有转人工，AI 生成的结果有没有被人重写，代码有没有通过测试，这些数字会比 " 我们服务了多少次请求 " 更接近公司质量。

靠复杂 Agent 链路包装估值的公司，下一轮融资时就要解释自己的 Token 良率。

Google 能看到 AI 回答之后的动作：用户继续搜索，还是完成了邮件、购物、导航。相比单纯调用量，这些反馈更接近任务完成。

Google 有搜索、邮箱、文档、浏览器、移动系统这些高频场景，也有大规模 Token 处理能力。如果它能把任务反馈接回模型和产品，优化的就不只是模型价格，还有哪些 Token 在真实场景里更有用。

纯 API 模型公司能看到调用量、上下文长度和费用账单，却未必知道用户任务最终有没有完成。客户把 API 接进客服、财务、研发、销售系统，模型公司看到的是消耗，客户看到的是结果。两个视角里的 " 使用增长 "，不一定指向同一件事。

AI 复盘会最先拿出来的，通常是使用人数、会话量、平均响应时间、节省工时、自动化率。这些数字有用，但还不够。客服解释有没有减少二次投诉，AI 生成的内容有没有被重写，代码有没有通过测试，用户那句 " 你没理解我的意思 " 出现了多少次，这些数字更接近 AI 有没有创造价值。

代码能不能通过测试，客服有没有少一次转人工，文档能不能直接拿去开会，这些结果还算容易验收。难的是另一类产品：用户和 AI 聊了二十分钟，最后发一句 " 算了，我自己来 "，后台记录的是一次深度会话，业务上却很难说它完成了什么。

一家企业上线 Agent 后，后台很快会多出调用量、会话数、Token 消耗和自动化率。更该盯的是，用户有没有反复解释同一个问题，最后有没有回到人工。

AI 公司以后绕不开一个问题：这些 Token 到底办成了多少任务。

回答不上来，Agent 越复杂，亏损可能越稳定。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

AI Agent 越复杂，亏损可能越稳定

宙世代

一起剪

相关阅读

锐龙X3D立大功！AMD、Intel CPU份额差距历史新低：已不到10%

1500元档续航流畅王 一加Turbo 6X Pro下周发布 李杰：同档产品力爆表

知情人士：马斯克向投行表态，SpaceX的发行价不会调整

腾讯姚顺雨：AI是长期游戏，下半场刚刚开始

2026智博会观察：告别参数崇拜，AI在场景里“掘金”

追觅CEO俞浩微博被禁言

英伟达CEO黄仁勋称三大存储芯片生产商均有资格供应HBM4芯片

32GB显存压进单槽！撼与锐炫Pro B70涡轮卡现身：8卡堆出256GB

汤道生对话姚顺雨：腾讯 AI，慢了吗？

学苹果！Windows笔记本纷纷回归8GB内存：真够用吗 实测扎心

腾讯高管回应腾讯AI发展慢了：接受提醒和建议 模型会不断迭代 年初腾讯对龙虾反应比较快

突发！Anthropic重磅发现：AI已开始自我进化 呼吁全球暂停研究

锁定高通2nm首发名额！小米18 Pro Max独享满血版骁龙8E6 Pro：开启2nm时代

难以置信 博主上手华为Pura X Max后被征服：再换回iPhone 17 Pro Max不习惯

前华为员工创业线控底盘，曾参编国标，获松禾、苏高新投资

最新评论

钛媒体

热门推荐

企业资讯

1500元档续航流畅王一加Turbo 6X Pro下周发布李杰：同档产品力爆表

学苹果！Windows笔记本纷纷回归8GB内存：真够用吗实测扎心

腾讯高管回应腾讯AI发展慢了：接受提醒和建议模型会不断迭代年初腾讯对龙虾反应比较快

突发！Anthropic重磅发现：AI已开始自我进化呼吁全球暂停研究

难以置信博主上手华为Pura X Max后被征服：再换回iPhone 17 Pro Max不习惯