关于ZAKER 合作
量子位 17小时前

实测!Qwen 下一代基础架构突袭!秒解 AIME 数学竞赛题,提速 10 倍 + 性价比提升 10 倍

Qwen 下一代模型架构,抢先来袭!

Qwen3-Next发布,Qwen 团队负责人林俊旸说,这就是Qwen3.5 的抢先预览版

基于 Qwen3-Next,团队先开源了 Qwen3-Next-80B-A3B-Base。

模型参数 80B,但训练成本连 Qwen3-32B 的十分之一都不到,并且在 32 k 以上的上下文推理吞吐能达到后者的十倍以上

基于这一模型,团队接连出手,同步开发并发布了两大新模型:

Qwen3-Next-80B-A3B-Instruct:在 256K 超长上下文处理任务中展现出显著优势。

Qwen3-Next-80B-A3B-Thinking:在多项基准测试中超越闭源模型 Gemini-2.5-Flash-Thinking。

网友表示,这更新频率令人震惊。

话不多说,赶紧来看看新模型有哪些改进吧。

4 大重要改进

Qwen3-Next 的核心改进有 4 方面:

混合注意力机制

高稀疏度 MoE 结构

稳定性优化

多 token 预测机制

混合注意力机制

线性注意力在长上下文处理中效率很高,但召回能力有限,而标准注意力计算开销大、推理效率低,单独使用均存在局限。

为此,Qwen 团队引入 Gated DeltaNet,其在上下文学习能力上优于常用的滑动窗口注意力和 Mamba2,并在采用 3:1 的混合策略(75% 层使用 Gated DeltaNet,25% 层保留标准注意力)时,兼顾性能与效率。

同时,在保留的标准注意力层中,他们进一步引入了多项优化设计:

1、延续先前工作的输出门控机制,以缓解注意力中的低秩问题;

2、将单个注意力头的维度从 128 扩展至 256;

3、仅对注意力头前 25% 的维度加入旋转位置编码,以增强长序列外推能力。

高稀疏度 MoE 结构

Qwen3-Next 采用高稀疏度的 MoE 架构,总参数量达 800 亿,但每次推理仅激活约 30 亿参数。

相比 Qwen3-MoE 的 128 个总专家和 8 个路由专家,Qwen3-Next 扩展到 512 个总专家,并采用 10 路由专家加 1 共享专家的组合设计,在保证性能的前提下最大化资源利用率。

训练稳定性优化

在 Qwen3-Next 中,团队为进一步提高模型稳定性,采用了 Zero-Centered RMSNorm,并在此基础上,对 norm weight 施加 weight decay,以避免权重无界增长。

不仅如此,他们还在初始化时归一化了 MoE router 的参数,确保每个 expert 在训练早期都能被无偏地选中,减小初始化对实验结果的扰动。

多 token 预测机制

Qwen3-Next 引入了原生 Multi-Token Prediction(MTP) 机制,不仅获得了 Speculative Decoding 接受率较高的 MTP 模块,还提升了模型主干的整体性能。

此外,它还对 MTP 的多步推理进行了专项优化,即通过训练推理一致的多步策略,进一步提高了在实际应用场景下 Speculative Decoding 的接受率。

快 10 倍,但便宜 10 倍

接下来,让我们一起看看新模型表现如何。

首先,Qwen3-Next 使用了 Qwen3 36T 预训练语料的均匀采样子集,仅包含 15T tokens。

其训练所需的 GPU Hours 不到 Qwen3-30A-3B 的 80%,相比 Qwen3-32B,仅需 9.3% 的 GPU 计算资源就能取得更优性能。

不仅如此,得益于创新的混合模型架构,Qwen3-Next 在推理效率上也表现突出。

与 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在预填充(prefill)阶段就展现出卓越的吞吐能力:

在 4k tokens 的上下文长度下,吞吐量接近前者的 7 倍;当上下文长度超过 32k 时,吞吐提升更是达到 10 倍以上。

在解码(decode)阶段,该模型同样高效。4k 上下文吞吐量提升约 4 倍,长上下文(32k+)场景中仍可保持超过 10 倍的吞吐优势。

基于 Qwen3-Next,Qwen 团队首先训练了 Qwen3-Next-80B-A3B-Base 模型。

该模型仅使用十分之一的 Non-Embedding 激活参数,就已在大多数基准测试中超越 Qwen3-32B-Base,并显著优于 Qwen3-30B-A3B,展现出出色的效率与性能优势。

基于 Qwen3-Next-80B-A3B-Base 的优异表现,团队进一步开发并发布了Qwen3-Next-80B-A3B-InstructQwen3-Next-80B-A3B-Thinking

Qwen3-Next-80B-A3B-Instruct

首先,Qwen3-Next-80B-A3B-Instruct 的表现显著优于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking,并在多数指标上接近 Qwen3-235B-A22B-Instruct-2507。

除此之外,在 RULER 测试中,无论上下文长度如何,Qwen3-Next-80B-A3B-Instruct 的表现均超过了层数相同但注意力层更多的 Qwen3-30B-A3B-Instruct-2507。

甚至在 256 k 范围内也优于层数更多的 Qwen3-235B-A22B-Instruct-2507,充分体现了 Gated DeltaNet 与 Gated Attention 混合模型在长文本处理场景下的优势。

Qwen3-Next-80B-A3B-Thinking

再来看 Qwen3-Next-80B-A3B-Thinking,其表现也相当不错。

在多项基准测试中都超过了闭源模型 Gemini-2.5-Flash-Thinking,并在部分指标上接近 Qwen 最新的旗舰模型 Qwen3-235B-A22B-Thinking-2507。

推理能力相当可以

接下来让我们实测一下 Qwen3-Next-80B-A3B 的推理能力。

使用 Qwen Chat 网页,一上来就给它扔一道 AIME 数学竞赛题试试:

由于 Qwen3-Next-80B-A3B支持多模态,这里我们可以直接上传图片。

几乎瞬间,模型就开始飞快地列出了详细解题思路和计算过程,最终得到的答案 "588" 与 AIME 标准答案完全吻合。

小试牛刀之后,接下来进入编程环节。

用 p5js 创建一个可直接玩的扫雷游戏。

代码成功运行后,我们也简单试玩了一下,流畅度还可以(doge)。

就是谁能解释一下为什么这个游戏背景是大红色,还没有网格线???

还有网友奇思妙想,用它生成了天气卡片。

不过,看到这个更新时,网友开心之余还是忍不住吐槽:

名字实在太复杂了。

目前,新模型已在魔搭社区和抱抱脸开源,大家可通过 Qwen Chat 免费体验,也可直接调用阿里云百炼平台提供的 API 服务。

魔搭社区直通车:https://t.co/mld9lp8QjK

抱抱脸直通车:https://t.co/zHHNBB2l5X

Qwen Chat 直通车:https://t.co/V7RmqMaVNZ

阿里云 API 直通车:https://t.co/RdmUF5m6JA

参考链接:

[ 1 ] https://x.com/Alibaba_Qwen/status/1966197643904000262

[ 2 ] https://x.com/JustinLin610/status/1966199996728156167

[ 3 ] https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见