关于ZAKER 合作
智东西 03-20

林俊旸离职后,阿里 Qwen3.5 首次发新

智东西

作者|江宇

编辑|冰倩

智东西 3 月 20 日报道,今日,阿里千问最新旗舰模型预览版 Qwen3.5-Max-Preview 正式亮相,并登上全球大模型评测平台 LMArena。在最新榜单中,该模型拿下 1464 分,进入第一梯队,同时带动阿里千问跻身全球大模型实验室前五、国内第一。

在强调模型基础能力对比的 without style control 评测条件下,其整体性能以 1470 分的成绩,强势进入全球前列,排名全球第六、国内第一。

从 Arena Expert 专家榜单来看,该模型位列第十,分数为 1498,排在 GPT-5.4、Claude Opus 4.5 系列、Claude Sonnet 4.6 以及 Gemini 3 pro 等模型之后,但已经超过 GPT-5.2-chat-latest、Claude Sonnet 4.5(thinking 版本)以及 Gemini 3 Flash 等模型,与头部模型形成贴身竞争。

从分项能力表现来看,Qwen3.5-Max-Preview 在数学和文本任务上均进入前列。其数学能力进入全球前五,专家级文本能力进入前十。

从与前代模型 Qwen3-Max 与 Qwen2.5-Max 的对比数据来看,这一版本的提升在多个高频文本与推理场景中。

Qwen3.5-Max-Preview 在创意写作任务上提升 57 分,数学能力提升 49 分,娱乐、体育与媒体类任务提升 48 分,整体文本能力提升 45 分,同时在写作、文学与语言相关任务中同样提升 45 分。整体能力呈现出较为均衡的提升。

从 Qwen3-Max 的参数规模推测,Qwen3.5-Max 很可能是阿里当前参数规模最大的模型,且大概率仍为闭源旗舰模型。

今年以来,阿里已陆续开源发布 Qwen3.5 系列模型,覆盖从 0.8B 到 397B 不同规模,共 8 款不同尺寸,有较完整的开源梯度。其中,Qwen3.5-Plus 采用约 3970 亿总参数、170 亿激活参数的结构,在同尺寸模型中表现较为突出。

结语:第一轮成绩落地,Qwen3.5-Max 等待正式版验证

模型层的突破正成为阿里 AI 转型的第一张王牌。

Qwen3.5-Max-Preview 已经先给出了第一轮成绩单,但这一版本仍处于预览阶段。接下来,随着正式版本发布,其能力表现和稳定性是否进一步提升,是这款旗舰模型真正要回答的问题。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容