上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

就在昨天，阶跃星辰登顶了全球模型榜单——他们最新开源的 Agent 基座模型 Step 3.5 Flash，发布首日便登上全球模型平台 OpenRouter 的 " 最快模型榜 "，而发布后仅用短短两天，就获得了 OpenRouter" 热度趋势榜 " 排名第一的好成绩，其数据是基于全球开发者与用户的实际模型调用量。也就是说，Step 3.5 Flash 以硬实力赢得了用户的 " 用脚投票 "。

（图为 Step 3.5 Flash 登顶 OpenRouter 的 Trending 榜单）

对阶跃来说，拿下榜单第一并不新鲜，而这个成绩有意思的地方在于，它点破了当前 AI 应用深化的一个普遍瓶颈：模型越来越 " 聪明 "，能处理的任务越来越复杂，但用户和开发者在真实使用时，最直接的感官体验却是—— " 慢 "。

这里的 " 慢 "，不是指回答一句 " 你好 " 的速度，而是当用户任务变得复杂，任务链和工作流明显变长（比如分析整篇财报、编写复杂函数、或同时完成图文音视频多模态输出等等）时，AI 的处理速度必然下降，用户的等待时间可能会被拖得很长。

漫长的等待——本身就严重限制了 AI 在实际工作流中的可用性；而如果等了半天，AI 拿出的结果还不能令人满意，用户的流失就已成定局。

而过去外界的一贯认知中，" 快 "= 小参数模型的敏捷调用、输出；" 慢 "= 更大参数量级的模型和细致的思考。此前，模型要的是 " 快 " 和 " 好 " 的平衡，而今天，阶跃的 Step 3.5 Flash 却敢于对世界说：" 我全都要！"

稀疏 MoE 架构：不要 " 大而全 "，我要 " 以巧见大 "

论速度，Step 3.5 Flash 有多快？

在复杂推理场景下，保证稳定性的同时，Step 3.5 Flash 在 NVDIA Hopper GPU 的最高推理速度可以达到每秒 350 个 Token，实现 " 点击即输出 " 的秒速体验。

榜单上，Step 3.5 Flash 以每秒 167 个 Token 的速度排名第九，但排在它前面的，多是在为专有硬件环境定制的模型和 8b-120b 规模不等的小型模型。

（图为 Step 3.5 Flash 在 OpenRouter 的 Fastest 榜位居前列）

而 Step 3.5 Flash 的参数量是 1960 亿，足以作为基座模型为 Agent 提供强劲的动力。

（Reddit 平台用户评价：终于有东西能在我那只有 120GB 显存的破电脑上运行了）

跑分测试上，Step 3.5 Flash 一马当先，并且尤其擅长 Agent 场景和数学任务。在 τ -Bench、BrowseComp 等测试，以及 LiveCodeBench V6 代码挑战和 AIME 2025 数学竞赛中，Step 3.5 Flash 都拿出了不错的成绩。

图注：Step 3.5 Flash 仅凭 11B 激活参数（总规模 196B MoE）便达到了顶尖级别的智能水平，足以媲美领先的闭源及开源模型（数据来源：阶跃星辰官方 Tech Report）

实践上，Step 3.5 Flash 还在多步推理的结构化输出、复杂逻辑求解、后端自动化和长时间运行任务中，已经具备了企业级应用落地的能力。而针对高频工具调用和对行为可预测性有强要求的系统环境，Step 3.5 Flash 也能轻松驾驭。

" 快 " 很容易，" 强 " 也很容易。要理解 Step 3.5 Flash 为何能做到又快又强，首先要了解的，是它采用的 " 稀疏混合专家（MoE）架构 " ——这是一个在追求 " 超大模型 " 时代里，回归工程理性的设计。

传统的千亿参数大模型像一个 " 全能巨人 "，处理任何问题，无论难易，都要动用全部脑力（激活所有参数）。

每一次都 " 全力出击 "，这固然能保证能力，但计算成本极高的同时，也让推理缓慢、能耗巨大，算力的浪费也同样不可避免。

Step 3.5 Flash 的思路则不同。

作为一个总参数量 1960 亿的 Agent 原生基座模型，它被精巧地组织成了许多个 " 专家小组 "。当一个问题输入时，一个智能的路由机制会迅速判断：" 这个问题主要由哪几个专家小组来处理最合适？" 然后，只激活这些相关的 " 专家 " ——大约 110 亿参数——来工作。

（海外用户评价：它仅使用 11b 的活跃参数，所以运行速度极快。老实说，我对它毫无延迟的运行表现着迷。）

你可以把它想象成一个高度专业化的超级顾问团。接到一个金融分析任务，系统不会唤醒团里的医学专家或文学教授，而是精准地调度金融、数据分析、逻辑推理这几个小组来协同工作。

这种设计，既能让每次推理实际消耗的计算资源大幅减少，提升了计算速度，成本也随之下降；又能背靠 " 顾问团 "1960 亿参数的 " 总知识库 "，在需要处理复杂、跨界问题时，依然有能力调动不同领域的 " 专家 " 进行深度协作，让输出保质保量。

凭借着更聪明的调用，Step 3.5 Flash 采用的稀疏 MoE 架构，打破了 " 大模型 " 必须 " 力大砖飞 " 的固有印象，让 AI 的能力和速度，成为了可以兼得的 " 鱼与熊掌 "。

不只是 " 跑得快 "，更是 " 想得流畅 "

光是有了更高效的架构还不够，Step 3.5 Flash 在具体工程实现上也做了不少优化，确保在真实场景中 " 跑 " 得流畅。

首先是处理长文本的 " 巧劲 "。

人要学会快速浏览文本，就必须学会 " 一目十行 " —— AI 也一样，面对一个超长文本还要快速输出内容，就不能在生成新词时，每次都全文逐字阅读理解。这被称为 " 全注意力 " 机制，虽然输出效果更好，但 AI 的计算量会随着文本长度呈平方级增长，是导致处理长文本时速度剧降、延迟飙升的主要原因。

要一目十行，模型就必须采取滑动窗口注意力（Sliding-Window Attention, SWA）的机制。

所谓滑动窗口，是基于一个符合直觉的观察：在理解一个长句子或段落时，当前词的含义最受其 " 邻近 " 词汇的影响，而距离很远的词影响相对较小。在这种机制下，模型能更专注于一个窗口中临近词汇的内容，读的内容变少了，处理速度当然更快，成本也自然更低。

而 Step 3.5 Flash 则是博采众长，采用了 3：1 的滑动窗口与全局注意力混合架构（SWA + Full Attention），对 256K 上下文有着高效的处理能力。

不光 " 看 " 得快，Step 3.5 Flash 还 " 写 " 得快。

传统的模式，AI 生成 Token，要一个一个地 " 往外蹦 "，在追求 AI 快交互的今天，这样的速度明显不够。

而 Step 3.5 Flash 采用了多 Token 预测（Multi-Token Prediction, MTP-3 ) 的技术，一次可以完成多个 Token 的预测，这相当于让 Token 的输出从 " 单车道 " 变成了 " 多车道 "，直接让文本生成的吞吐效率翻了倍。

有了稀疏 MoE 架构，再整合了更先进的技术模式，给市场带来的震撼是直接的：AI 在处理复杂、多步任务时的 " 迟滞感 " 正在被抹平。无论是代码生成、长文档分析还是需要多轮思考的规划任务，响应都变得更加即时和连贯。

Step 3.5 Flash 的出现，对于那些希望将 AI 深度集成到自动化工作流中的开发者而言，标志着一个实用的拐点——一个既聪明又敏捷的 "AI 大脑 " 已经触手可及。

结语

模型能力的升级，在今天似乎已经不是新鲜事——而 Step 3.5 Flash 的强势登场，却打破了过往的技术预设。

Step 3.5 Flash 所代表的，不仅仅是一个模型版本的迭代，更是一种技术路径的明确：通往更强大的人工智能的道路，不一定只靠无限制地堆叠参数，通过架构创新和工程优化，在效能与能力之间取得精妙平衡，同样是关键且务实的一步。

Step 3.5 Flash 登榜的胜利，不止是模型技术的胜利，更是模型工程的胜利，是阶跃星辰在追寻 AGI 的路上，迈出的坚实一步。

今天，Step 3.5 Flash 已在 OpenRouter、GitHub、阶跃 AI APP 和网页端等多端同步上线，面向开发者提供免费试用与快速部署支持。而同时，阶跃星辰也已启动了下一代 Step 4 的研发，并邀请全球开发者 " 深度参与共创 "，让模型从工程中来，到工程中去，用最 " 落地 " 的方式做最 " 高级 " 的事情。

从 Step 3.5 Flash 开始，市场便能够看到一条通往 AGI 更清晰的路径——通过构建更快、更稳、更易获取的智能基座，降低每一个创新者构建高级 AI 应用的门槛。

当无数开发者可以基于这样的基座，在面对千行百业的具体问题时，都能创造出属于自己的智能体，并且以更便宜、更便捷的方式满足自己的实际需求，那时的我们距离 AGI，或许可以又近了一点点。

雷峰网

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

上线两天登顶全球榜单，阶跃星辰怎么让 AI 又「聪明」又「快」？

宙世代

一起剪

相关阅读

酷冷至尊莫比乌斯140 VX系列风扇99元起：提供黑白无光及ARGB版本

奶茶店都崩溃了！千问推出一句话点奶茶，有商家单量暴增至10倍

折痕最浅的折叠屏旗舰来了！OPPO Find N6预热

AI激发全民创作热情！首届京东AI影视创作大赛掀“人人皆导演”风潮

对撞测试抹黑小米SU7博主遭公诉：今日开庭审理

姜超谈红魔11 Pro+鸣潮限定版：比常规版贵500元 我们最大的诚意

腾讯“内讧”？微信封杀元宝红包

叮咚上岸，美团清场

千问狂砸30亿发起奶茶攻击 活动火爆致服务器卡顿 网友吵翻了

锐龙9000系列CPU在华擎主板上翻车：官方发布声明！

AI芯片厂商，集体被存储“卡住咽喉”

最强牛马狙击编程之王，OpenAI和Anthropic深夜同发大招

雀巢CEO再谈裁员1.6万：借助AI降低人力成本

苹果iPhone Fold搭载顶级薄膜材料：耐用度直接拉满

贾跃亭再闯新赛道！ 没卖几台车就开始造机器人，遭全网吐槽

最新评论

雷峰网

热门推荐

姜超谈红魔11 Pro+鸣潮限定版：比常规版贵500元我们最大的诚意

千问狂砸30亿发起奶茶攻击活动火爆致服务器卡顿网友吵翻了

贾跃亭再闯新赛道！没卖几台车就开始造机器人，遭全网吐槽