9 月 12 日,阿里通义发布下一代基础模型架构 Qwen3-Next。Qwen3-Next 针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏 MoE 架构,并对经典 Transformer 核心组件进行了重构,创新线性注意力和自研的门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。
基于这一新架构,阿里通义 " 打样 " 了 Qwen3-Next-80B-A3B 系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数 80B 仅激活 3B,性能可媲美千问 3 旗舰版 235B 模型,模型计算效率大幅提升。Qwen3-Next 训练成本较密集模型 Qwen3-32B 大降超 90%,长文本推理吞吐量提升 10 倍以上,并可支持百万 Tokens 超长上下文。