阿里巴巴通义团队用四连发的重磅出击,横扫 Github 开源榜单。
本周从 7 月 22 日到 25 日,阿里接连推出 Qwen3-235B 非思考版本、Qwen3-Coder 编程模型、Qwen3-235B-A22B-Thinking-2507 推理模型,以及 WebSailor AI Agent 框架,四款产品横扫基础模型、编程模型、推理模型和智能体领域的开源榜单。
权威机构 Artificial Analysis 更是直接评价:
通义千问 3 是全球最智能的非思考基础模型。
非思考模型也能性能 " 爆表 "
据硬 AI,周二凌晨阿里巴巴通义千问团队推出非思考模式(Non-thinking)最新模型,命名为 Qwen3-235B-A22B-Instruct-2507-FP8。
这款非思考模型在多项关键基准测试中表现出色。不仅全面超越了 Kimi-K2 等顶级开源模型,甚至领先 Claude-Opus4-Non-thinking 等顶级闭源模型。
7 月 23 日发布的 Qwen3-Coder 更是在全球开发者社区引发轰动。
在开发者最关注的 SWE-bench Verified 基准测试中,Qwen3-Coder 取得了开源模型最佳表现。
阿里还推出了配套的命令行工具 Qwen Code,为开发者提供了完整的编程解决方案。
科技界领袖纷纷为 Qwen3-Coder 点赞,例如 Perplexity CEO Aravind Srinivas 盛赞 Qwen3-coder 的实力:
成果令人惊叹,开源正在获胜。
goose 配合 Qwen3-Coder 等于哇哦
阿里通义实验室同期开源的 WebSailor AI Agent 框架,直接对标 OpenAI 的 Deep Research 产品。
这款框架在 BrowseComp-en/zh 测试中性能显著优于所有开源智能体,可媲美专属闭源模型。
除了在复杂任务上的卓越表现,WebSailor 在简单任务上也表现出色。例如,在 SimpleQA 基准测试中,WebSailor 的性能超过了所有其他模型产品。
该项目在 GitHub 已获得超过 5000 颗星,并曾拿下每日增长趋势第一名。
该框架的开源意义重大,打破了闭源系统在信息检索领域的垄断地位,为全球开发者提供了媲美 Deep Research 的开源解决方案。
推理模型登顶全球开源冠军
7 月 25 日发布的 Qwen3-235B-A22B-Thinking-2507 成为本周最重磅的产品。
AIME25(数学)达到 92.3 分。
LiveCodeBench v6(编程)获得 74.1 分。
WritingBench(写作)达到 88.3 分。
PolyMATH(多语言数学)获得 60.1 分。
OpenRouter 数据显示,阿里千问的 API 调用量在过去几天暴涨,已超过 1000 亿 tokens,包揽最热门调用模型前三名。这一数据直接反映了市场对阿里开源模型的认可度。
中国的开源 o4-mini。
中国刚刚发布了一款怪物级的 AI 模型。