
作者 | 陈骏达
编辑 | 心缘
智东西 4 月 20 日报道,今天,阿里发布了其下一代旗舰模型的早期预览版:Qwen3.6-Max-Preview。在第三方评测榜单 Artificial Analysis 的智能指数排名中,Qwen3.6-Max-Preview 的得分为 52 分,小幅超过 GLM-5.1、MiniMax-M2.7,成为这一榜单上得分最高的国产模型。

与之前发布的 Qwen3.6-Plus 相比,Qwen3.6-Max-Preview 模型在智能体编程、世界知识和指令遵循方面均有明显可感的提升。
比如,我们让两个模型分别打造了一个 3D 赛车游戏。Qwen3.6-Max-Preview 打造的项目,虽然谈不上精美,但核心运行逻辑正常,是一个还不错的原型,后续可以基于这一项目进行迭代。


阿里上一次更新旗舰模型是在 1 个月前,当时发布的模型是 Qwen3.5-Max-Preview,也是预览版。今天发布的 Qwen3.6-Max-Preview 已在 Qwen Studio 上线供用户体验,同时也很快将上线阿里云百炼 API。
体验链接:https://chat.qwen.ai/
一、智能体编程能力有提升,实测能 one-shot 复刻 "macOS"
据阿里介绍,Qwen3.6-Max-Preview 最大的性能提升在于智能体编程能力。
在六项主流编程基准测试(SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench 和 SciCode)中,Qwen3.6-Max-Preview 取得了最高得分。这些测试覆盖了真实软件工程、终端与命令行交互、综合编程技能、OpenClaw 类 Agent 以及科学计算等核心能力。

案例 1:模拟 macOS 桌面环境
提示词:生成一个 macOS 桌面环境,包含文件管理、浏览器、笔记等核心功能。
拿到这一任务后,Qwen3.6-Max-Preview 首先进行了规划,它意识到了自己无法构建真实的操作系统或完整复刻,但可通过前端技术呈现其视觉与交互特征,并据此设定了可行的任务目标,包括重点实现外观与行为的仿真。
使用过程中,能感觉到 Qwen3.6-Max-Preview 的 token 效率不错,没有浪费过多的 token 在无谓的反复思考和自我核验上,而是很快进行到正式的开发环节。
Qwen3.6-Max-Preview 用大概 3 分钟完成了原型的开发。其模拟出的 macOS 桌面效果逼真,交互方式与原版差异不大,浏览器功能也可以正常使用。


案例 2:打造 MarkDown 编辑器
如果说上方的这一案例更像是开放性的开发任务,那么下面这一案例则对技术要求做了十分详细的规定,不仅考察模型的编程能力,也对指令遵循提出了要求。
提示词:



其实,测试智能体编程能力的最佳场景,是将模型接入 Claude Code 或是 OpenClaw 这样的 Agent,在本地进行大型项目的开发,不过由于 Qwen3.6-Max-Preview 的 API 暂未完全开放,我们并未进行这一测试。
二、成功破解洗车难题,讲解复杂论文深入浅出
除了智能体编程能力之外,我们也对 Qwen3.6-Max-Preview 的其他能力维度做了考察。
比如,在逻辑推理方面,它可以看穿洗车店难题中的陷阱,直接给出判断:" 既然目的是洗车,那肯定是开车去呀——毕竟车得过去才能洗嘛。"

拿到任务后,Qwen3.6-Max-Preview 决定用交通调度的类比来拆解这篇论文的核心思想。它的几个类比都较为准确,也抓住了论文提出的核心问题与解决思路,用词中没有堆砌原文的大量术语,而是做了解释,让非技术背景的读者也能理解这篇论文的内容。

目前,阿里已推出千问 3.6 系列的多个版本,包括 Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash,并开源了 Qwen3.6-35B-A3B。值得注意的是,此前阿里旗下的 Max 系列模型(如 Qwen3-Max)也属于开源范畴。
从这一新模式来看,阿里似乎调整了其开源策略:仅将小尺寸模型开源,而将超大参数量或高性能版本保留为商用产品。
这种 " 开源小尺寸 + 商业化大尺寸 " 的混合模式,正逐渐成为许多大模型厂商的共同选择。它或许也代表着开源生态与商业利益之间的一次再平衡。

作者 | 陈骏达
编辑 | 心缘
智东西 4 月 20 日报道,今天,阿里发布了其下一代旗舰模型的早期预览版:Qwen3.6-Max-Preview。在第三方评测榜单 Artificial Analysis 的智能指数排名中,Qwen3.6-Max-Preview 的得分为 52 分,小幅超过 GLM-5.1、MiniMax-M2.7,成为这一榜单上得分最高的国产模型。

与之前发布的 Qwen3.6-Plus 相比,Qwen3.6-Max-Preview 模型在智能体编程、世界知识和指令遵循方面均有明显可感的提升。
比如,我们让两个模型分别打造了一个 3D 赛车游戏。Qwen3.6-Max-Preview 打造的项目,虽然谈不上精美,但核心运行逻辑正常,是一个还不错的原型,后续可以基于这一项目进行迭代。


阿里上一次更新旗舰模型是在 1 个月前,当时发布的模型是 Qwen3.5-Max-Preview,也是预览版。今天发布的 Qwen3.6-Max-Preview 已在 Qwen Studio 上线供用户体验,同时也很快将上线阿里云百炼 API。
体验链接:https://chat.qwen.ai/
一、智能体编程能力有提升,实测能 one-shot 复刻 "macOS"
据阿里介绍,Qwen3.6-Max-Preview 最大的性能提升在于智能体编程能力。
在六项主流编程基准测试(SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench 和 SciCode)中,Qwen3.6-Max-Preview 取得了最高得分。这些测试覆盖了真实软件工程、终端与命令行交互、综合编程技能、OpenClaw 类 Agent 以及科学计算等核心能力。

案例 1:模拟 macOS 桌面环境
提示词:生成一个 macOS 桌面环境,包含文件管理、浏览器、笔记等核心功能。
拿到这一任务后,Qwen3.6-Max-Preview 首先进行了规划,它意识到了自己无法构建真实的操作系统或完整复刻,但可通过前端技术呈现其视觉与交互特征,并据此设定了可行的任务目标,包括重点实现外观与行为的仿真。
使用过程中,能感觉到 Qwen3.6-Max-Preview 的 token 效率不错,没有浪费过多的 token 在无谓的反复思考和自我核验上,而是很快进行到正式的开发环节。
Qwen3.6-Max-Preview 用大概 3 分钟完成了原型的开发。其模拟出的 macOS 桌面效果逼真,交互方式与原版差异不大,浏览器功能也可以正常使用。


案例 2:打造 MarkDown 编辑器
如果说上方的这一案例更像是开放性的开发任务,那么下面这一案例则对技术要求做了十分详细的规定,不仅考察模型的编程能力,也对指令遵循提出了要求。
提示词:



其实,测试智能体编程能力的最佳场景,是将模型接入 Claude Code 或是 OpenClaw 这样的 Agent,在本地进行大型项目的开发,不过由于 Qwen3.6-Max-Preview 的 API 暂未完全开放,我们并未进行这一测试。
二、成功破解洗车难题,讲解复杂论文深入浅出
除了智能体编程能力之外,我们也对 Qwen3.6-Max-Preview 的其他能力维度做了考察。
比如,在逻辑推理方面,它可以看穿洗车店难题中的陷阱,直接给出判断:" 既然目的是洗车,那肯定是开车去呀——毕竟车得过去才能洗嘛。"

拿到任务后,Qwen3.6-Max-Preview 决定用交通调度的类比来拆解这篇论文的核心思想。它的几个类比都较为准确,也抓住了论文提出的核心问题与解决思路,用词中没有堆砌原文的大量术语,而是做了解释,让非技术背景的读者也能理解这篇论文的内容。

目前,阿里已推出千问 3.6 系列的多个版本,包括 Qwen3.6-Max-Preview、Qwen3.6-Plus、Qwen3.6-Flash,并开源了 Qwen3.6-35B-A3B。值得注意的是,此前阿里旗下的 Max 系列模型(如 Qwen3-Max)也属于开源范畴。
从这一新模式来看,阿里似乎调整了其开源策略:仅将小尺寸模型开源,而将超大参数量或高性能版本保留为商用产品。
这种 " 开源小尺寸 + 商业化大尺寸 " 的混合模式,正逐渐成为许多大模型厂商的共同选择。它或许也代表着开源生态与商业利益之间的一次再平衡。