OpenRouter Trending 榜单冷不丁窜出一匹国产黑马,热度暴涨稳居全球第二。
定睛一看,原来是阶跃星辰新发的Step 3.7 Flash。
再一看,不只 OpenRouter,这个新模型在AA 榜那边也顺手拿了几个第一;
在 HuggingFace 上开源之后的下载量和讨论也一直没降过温。
这我是真好奇,这新模型到底火在哪了。
于是咱去感受了一波,手把手教我用 Blender 这种专业 3D 软件就算了;
它居然还直接带我开飞机,没错,是真的大飞机!!
仪表盘、操纵杆、飞行参数…它一边看屏幕一边讲下一步该按哪个按钮。
当然了,教我开飞机只是节目效果,重点是 Step 3.7 Flash 自己也起飞了——
Token 意义上的速度起飞,输出速度最高416 tokens/s。


模型竞赛的赛点,从单次最强挪到了效率优先
其实前两年大模型圈子的画风还比较简单。
大家比的是啥?比谁聪明。
各家埋头刷 Benchmark,成绩多拿一两分就能小火一把,当时比拼的核心是模型单次问答能力的上限。
但今年风向变了。
相信大家也都发现,OpenAI、Anthropic、Cursor 嘴里念叨的关键词换成了企业级 Agent、工具调用、任务交付……随着 Agent 成为主流落地形态,原先只拼单点性能的老一套竞赛规则不适用了。
在进入真实业务的 Agent 工作链路后,AI 要反复调用工具、多轮检索信息、分步拆解复杂任务。
问题就出在这儿。
一次回答慢两秒,你能忍,但 Agent 一个任务要调几十次模型,每次都慢两秒,谁的火气都大。
调一次贵一点没感觉,调几十几百次之后,账单突然就开始在你血压上蹦迪了。
这种高频交互带来的调用量暴涨,推理延迟、Token 消耗成倍飙升,不光是咱日常用着闹心,开发者和企业的钱包更是遭不住啊。
业内近一年的 Agent 研究也开始专门引入「预算约束」「成本最优规划」等评价维度,本质上就是因为推理成本已经成为 Agent 落地的核心瓶颈。

阶跃星辰这次,好像真找到了 Agent 时代的版本答案:
同样的活儿,Step 3.7 Flash 能更快、更便宜地干完。
咱索性就直接上手试一试!
实测 Step 3.7 Flash:又快又省钱多模态理解能力
先来看看它看图办事的能力怎么样。
上传了一张灵巧手图片,它能结合外观细节快速确认,还能精准识别分段指节、灰色阻尼指尖、腕部接口等特征。


只不过表格太长,我只截取了结构和感知的一部分。

工具编排能力
接下来,我们给 Step 3.7 Flash 一条龙杂活,考考它的工具编排能力,主要看它是否能在长程多轮里稳定调用工具、不跑偏。
比如说,整理报销单。

出差一趟,总会积压四五张发票,要一张张核对金额,还要整理好并填写相应的报销规范。
于是,我把发票全部放在了一个文件夹里,然后把它丢给了 Step 3.7 Flash(此处接入了 OpenClaw)。

OpenClaw 里可以看到任务完成的计时,大概也就不到 60 秒吧…它就告诉我它干完了。

逐一打开来看,也没有任何问题,写的内容完全无误。


接下来,我们把难度又再拉升一个等级:考考 Step 3.7 Flash 的多 Agent 集群能力。
官方演示里不是有个「40 个 Agent 扮演产品评测团」的 case 嘛,我就非常好奇,想要复刻一下。
具体任务是这样的:
一个新的外卖 App,准备在「拼单 /AI 点菜推荐 / 会员折扣 / 深夜配送 / 碳积分」5 个新功能里挑重点做。
让 40 个不同年龄、职业、消费习惯的虚拟用户分别投票并说理由,最后汇总出每个功能的偏好分布和典型反对意见。
当然,不只是给它提示词这么简单。
我们先让 Step 3.7 Flash 生成 40 个差异化虚拟用户,覆盖大学生、互联网产品经理、中学教师、夜班护士、自由摄影师等不同人群。

每个 Agent 要做的是:站在自己的人设视角,对 5 个功能做排序,选出最想优先上线的功能,并给出支持理由和最不看好的功能。
最后,把 40 个 Agent 的结果统一汇总,并生成一个可视化看板。
结果也挺有意思的:40 个 Agent 全部有效返回,没有出现角色混淆或者格式大面积跑偏。
最终投票里,AI 点菜推荐拿到 11 票,排第一;拼单拿到 10 票,紧随其后;深夜配送 8 票,会员折扣 6 票,碳积分 5 票。
其中还能看到更细的人群分层,比如年轻白领更偏向 AI 点菜推荐,因为它解决的是「今天吃什么」的高频决策疲劳。
而学生等价格敏感人群,更倾向拼单和会员折扣,因为能凑起送价、摊配送费。
从结果来看,Step 3.7 Flash 在这个任务里的表现还是挺稳的:
40 个虚拟用户的画像差异明显,投票理由和人设基本能对上,也没有出现大家都选同一个功能的「假共识」。
这波重大利好产品经理啊!让 Agent 集群先开一轮需求评审会,自己只需要拍板下一步就可以了 ~

每个任务,简单的不到一分钟,复杂的也就是几分钟,它就能给我交付出结果。
有句话叫唯快不破。在传统单轮问答里,快一点只是体验更顺。但在 Agent 场景里,速度直接决定任务能不能用。
官方介绍 Step 3.7 Flash 时,把这个数字拉到了一个新的工程极限:单任务最高超过 400tps。
这是什么概念?在没有特别推理加速的前提下,绝大多数模型的推理速度都在 100tps 以下,主流甚至只在 30tps 上下。
在 Artificial Analysis 的速度天梯上,此前最快的 GPT-5.3 也就 70 多 tps。Step 3.7 Flash 是在支持多模态的前提下,硬把速度顶到了 400tps。



Step 3.7 Flash 的解法,是把性价比做成了可规模化的底气。在 OpenRouter 上,它的定价是每百万输入 token 0.2 美元、输出 token 1.15 美元。
两代 Flash 背后,阶跃算的是一笔企业账
把视角拉远一点会发现,Step 3.7 Flash 并不是一时兴起。
它延续的是阶跃上一代 Step 3.5 Flash 的打法:追求效率上限、强调实用,在速度、性能和性价比之间找平衡,还支持本地部署。
3.7 在这个基础上更进一步,兼顾了更多能力的协同效率,也在成本、稳定性和部署形态上更扛得住长期运行。
这条路能不能跑通,上一代 3.5 Flash 早就用真金白银验证过了。
今年 2 月,Step 3.5 Flash 发布,两天登顶 OpenRouter Trending,一个月内 OpenClaw 调用量做到了全球第一。
此外,Step 3.5 Flash 上线两个多月就量产上车,登陆极氪 8X,直接当上了这款旗舰车型的「Agent 大脑」。
从开源榜单一路走到量产车机,阶跃 Flash 系列在真实场景里的可用性和性价比,已经被市场投了票。
还有开发者统计了 OpenRouter 上 60 多个服务商的 398 个核心数据,整理出一张「缓存命中率排行榜」。
阶跃以 86.1% 排进 S 档、位列全球第二,仅次于 DeepSeek,和 DeepSeek、月之暗面一起站在了全球第一梯队。
缓存命中率高,说明它底层的推理系统工程做得好——在长任务、Agent、RAG 这些场景里,重复的上下文前缀能被高效复用,直接换来更低成本、更高吞吐、更低延迟。
某些场景下,它的实际推理成本会大幅低于其他模型,速度优势也更明显,尤其适合复杂长任务。
换句话说,在企业级 Agent 市场,阶跃的模型「非常值钱」。

未来大规模落地的 AI 应用,不会只靠少数昂贵的旗舰模型,而会形成一套由不同能力、成本、部署形态组成的「模型组合」。
高效率的 Flash 模型,会在 Agent、Coding、Search、多模态办公和企业工作流里,承担越来越多的生产任务,成为 AI 规模化落地的重要基础设施。
这个判断并不孤单。今年 Anthropic 的 ARR,从 2025 年底的约 90 亿美元,一路冲到 2026 年的数百亿美元量级,其中约八成收入来自企业客户。
企业级 Agent 的商业化潜力,正在被真金白银验证。
说到底,当 Agent 从 Demo 走进真实生产,赛点早就从「谁更聪明」,换成了「谁能在单位成本下,把更多真实任务又快又稳地跑完」。
Step 3.7 Flash 最近这一波蹿红,是这个新赛点的体现,也是大模型竞速新竞争力的钟声。
体验地址:https://chat.stepfun.com/chats/new
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见