关于ZAKER 合作
雷锋网 1小时前

上线两天登顶全球榜单,阶跃星辰怎么让 AI 又「聪明」又「快」?

就在昨天,阶跃星辰登顶了全球模型榜单——他们最新开源的 Agent 基座模型 Step 3.5 Flash,发布首日便登上全球模型平台 OpenRouter 的 " 最快模型榜 ",而发布后仅用短短两天,就获得了 OpenRouter" 热度趋势榜 " 排名第一的好成绩,其数据是基于全球开发者与用户的实际模型调用量。也就是说,Step 3.5 Flash 以硬实力赢得了用户的 " 用脚投票 "。

(图为 Step 3.5 Flash 登顶 OpenRouter 的 Trending 榜单)

对阶跃来说,拿下榜单第一并不新鲜,而这个成绩有意思的地方在于,它点破了当前 AI 应用深化的一个普遍瓶颈:模型越来越 " 聪明 ",能处理的任务越来越复杂,但用户和开发者在真实使用时,最直接的感官体验却是—— " 慢 "。

这里的 " 慢 ",不是指回答一句 " 你好 " 的速度,而是当用户任务变得复杂,任务链和工作流明显变长(比如分析整篇财报、编写复杂函数、或同时完成图文音视频多模态输出等等)时,AI 的处理速度必然下降,用户的等待时间可能会被拖得很长。

漫长的等待——本身就严重限制了 AI 在实际工作流中的可用性;而如果等了半天,AI 拿出的结果还不能令人满意,用户的流失就已成定局。

而过去外界的一贯认知中," 快 "= 小参数模型的敏捷调用、输出;" 慢 "= 更大参数量级的模型和细致的思考。此前,模型要的是 " 快 " 和 " 好 " 的平衡,而今天,阶跃的 Step 3.5 Flash 却敢于对世界说:" 我全都要!"

稀疏 MoE 架构:不要 " 大而全 ",我要 " 以巧见大 "

论速度,Step 3.5 Flash 有多快?

在复杂推理场景下,保证稳定性的同时,Step 3.5 Flash 在 NVDIA Hopper GPU 的最高推理速度可以达到每秒 350 个 Token,实现 " 点击即输出 " 的秒速体验。

榜单上,Step 3.5 Flash 以每秒 167 个 Token 的速度排名第九,但排在它前面的,多是在为专有硬件环境定制的模型和 8b-120b 规模不等的小型模型。

(图为 Step 3.5 Flash 在 OpenRouter 的 Fastest 榜位居前列)

而 Step 3.5 Flash 的参数量是 1960 亿,足以作为基座模型为 Agent 提供强劲的动力。

(Reddit 平台用户评价:终于有东西能在我那只有 120GB 显存的破电脑上运行了)

跑分测试上,Step 3.5 Flash 一马当先,并且尤其擅长 Agent 场景和数学任务。在 τ -Bench、BrowseComp 等测试,以及 LiveCodeBench V6 代码挑战和 AIME 2025 数学竞赛中,Step 3.5 Flash 都拿出了不错的成绩。

图注:Step 3.5 Flash 仅凭 11B 激活参数(总规模 196B MoE)便达到了顶尖级别的智能水平,足以媲美领先的闭源及开源模型(数据来源:阶跃星辰官方 Tech Report)

实践上,Step 3.5 Flash 还在多步推理的结构化输出、复杂逻辑求解、后端自动化和长时间运行任务中,已经具备了企业级应用落地的能力。而针对高频工具调用和对行为可预测性有强要求的系统环境,Step 3.5 Flash 也能轻松驾驭。

" 快 " 很容易," 强 " 也很容易。要理解 Step 3.5 Flash 为何能做到又快又强,首先要了解的,是它采用的 " 稀疏混合专家(MoE)架构 " ——这是一个在追求 " 超大模型 " 时代里,回归工程理性的设计。

传统的千亿参数大模型像一个 " 全能巨人 ",处理任何问题,无论难易,都要动用全部脑力(激活所有参数)。

每一次都 " 全力出击 ",这固然能保证能力,但计算成本极高的同时,也让推理缓慢、能耗巨大,算力的浪费也同样不可避免。

Step 3.5 Flash 的思路则不同。

作为一个总参数量 1960 亿的 Agent 原生基座模型,它被精巧地组织成了许多个 " 专家小组 "。当一个问题输入时,一个智能的路由机制会迅速判断:" 这个问题主要由哪几个专家小组来处理最合适?" 然后,只激活这些相关的 " 专家 " ——大约 110 亿参数——来工作。

(海外用户评价:它仅使用 11b 的活跃参数,所以运行速度极快。老实说,我对它毫无延迟的运行表现着迷。)

你可以把它想象成一个高度专业化的超级顾问团。接到一个金融分析任务,系统不会唤醒团里的医学专家或文学教授,而是精准地调度金融、数据分析、逻辑推理这几个小组来协同工作。

这种设计,既能让每次推理实际消耗的计算资源大幅减少,提升了计算速度,成本也随之下降;又能背靠 " 顾问团 "1960 亿参数的 " 总知识库 ",在需要处理复杂、跨界问题时,依然有能力调动不同领域的 " 专家 " 进行深度协作,让输出保质保量。

凭借着更聪明的调用,Step 3.5 Flash 采用的稀疏 MoE 架构,打破了 " 大模型 " 必须 " 力大砖飞 " 的固有印象,让 AI 的能力和速度,成为了可以兼得的 " 鱼与熊掌 "。

不只是 " 跑得快 ",更是 " 想得流畅 "

光是有了更高效的架构还不够,Step 3.5 Flash 在具体工程实现上也做了不少优化,确保在真实场景中 " 跑 " 得流畅。

首先是处理长文本的 " 巧劲 "。

人要学会快速浏览文本,就必须学会 " 一目十行 " —— AI 也一样,面对一个超长文本还要快速输出内容,就不能在生成新词时,每次都全文逐字阅读理解。这被称为 " 全注意力 " 机制,虽然输出效果更好,但 AI 的计算量会随着文本长度呈平方级增长,是导致处理长文本时速度剧降、延迟飙升的主要原因。

要一目十行,模型就必须采取滑动窗口注意力(Sliding-Window Attention, SWA)的机制。

所谓滑动窗口,是基于一个符合直觉的观察:在理解一个长句子或段落时,当前词的含义最受其 " 邻近 " 词汇的影响,而距离很远的词影响相对较小。在这种机制下,模型能更专注于一个窗口中临近词汇的内容,读的内容变少了,处理速度当然更快,成本也自然更低。

而 Step 3.5 Flash 则是博采众长,采用了 3:1 的滑动窗口与全局注意力混合架构(SWA + Full Attention),对 256K 上下文有着高效的处理能力。

不光 " 看 " 得快,Step 3.5 Flash 还 " 写 " 得快。

传统的模式,AI 生成 Token,要一个一个地 " 往外蹦 ",在追求 AI 快交互的今天,这样的速度明显不够。

而 Step 3.5 Flash 采用了多 Token 预测(Multi-Token Prediction, MTP-3 ) 的技术,一次可以完成多个 Token 的预测,这相当于让 Token 的输出从 " 单车道 " 变成了 " 多车道 ",直接让文本生成的吞吐效率翻了倍。

有了稀疏 MoE 架构,再整合了更先进的技术模式,给市场带来的震撼是直接的:AI 在处理复杂、多步任务时的 " 迟滞感 " 正在被抹平。无论是代码生成、长文档分析还是需要多轮思考的规划任务,响应都变得更加即时和连贯。

Step 3.5 Flash 的出现,对于那些希望将 AI 深度集成到自动化工作流中的开发者而言,标志着一个实用的拐点——一个既聪明又敏捷的 "AI 大脑 " 已经触手可及。

结语

模型能力的升级,在今天似乎已经不是新鲜事——而 Step 3.5 Flash 的强势登场,却打破了过往的技术预设。

Step 3.5 Flash 所代表的,不仅仅是一个模型版本的迭代,更是一种技术路径的明确:通往更强大的人工智能的道路,不一定只靠无限制地堆叠参数,通过架构创新和工程优化,在效能与能力之间取得精妙平衡,同样是关键且务实的一步。

Step 3.5 Flash 登榜的胜利,不止是模型技术的胜利,更是模型工程的胜利,是阶跃星辰在追寻 AGI 的路上,迈出的坚实一步。

今天,Step 3.5 Flash 已在 OpenRouter、GitHub、阶跃 AI APP 和网页端等多端同步上线,面向开发者提供免费试用与快速部署支持。而同时,阶跃星辰也已启动了下一代 Step 4 的研发,并邀请全球开发者 " 深度参与共创 ",让模型从工程中来,到工程中去,用最 " 落地 " 的方式做最 " 高级 " 的事情。

从 Step 3.5 Flash 开始,市场便能够看到一条通往 AGI 更清晰的路径——通过构建更快、更稳、更易获取的智能基座,降低每一个创新者构建高级 AI 应用的门槛。

当无数开发者可以基于这样的基座,在面对千行百业的具体问题时,都能创造出属于自己的智能体,并且以更便宜、更便捷的方式满足自己的实际需求,那时的我们距离 AGI,或许可以又近了一点点。

雷峰网

相关标签