APP下载

关于ZAKER

合作

雷锋网 3小时前

阿里千问最强模型重磅亮相！性能媲美 GPT-5.2、Gemini 3 Pro

1 月 26 日，阿里正式发布千问旗舰推理模型 Qwen3-Max-Thinking，创下数项权威评测全球新纪录，性能媲美 GPT-5.2、Gemini 3 Pro，成为迄今为止最接近国际顶尖模型的国内最强 AI 大模型。通过总参数、强化学习、推理计算的极致规模扩展，千问新模型实现了性能的大幅飞跃，刷新科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项关键性能基准测试的全球纪录。

Qwen3-Max-Thinking 是目前阿里规模最大、能力最强的千问推理模型，其总参数量超万亿（1T），预训练数据量高达 36T Tokens。此前，预览版 Qwen3-Max-Thinking 斩获数学推理 AIME 25 和 HMMT 25 的国内首个双满分，推理性能已让人惊艳；在此基础上，阿里通义团队进行了更大规模的强化学习后训练，全面提升了正式版 Qwen3-Max-Thinking 性能：在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent 能力等 19 个公认的大模型基准测试中，千问旗舰推理模型刷新了数项最佳表现（SOTA）纪录，整体性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro 。

在关键的模型推理能力提升中，千问新模型采用了一种全新的测试时扩展（Test-time Scaling）机制，推理性能提升的同时还更经济。业界普遍的推理时计算，只会简单增加并行推理路径，重复推导已知结论，造成冗余推理效率低下；而千问采用的这一新机制，可对此前推理的结果进行 " 经验提取 " 式的提炼，并据此进行多轮自我迭代，在相同的上下文中实现更高效的推理计算，获得更智能的推理结果。基于这一推理技术创新，千问推理性能和推理效率大为提升，比如在启用工具的 " 人类最后的测试 "HLE 中，千问得分 58.3，大幅超过 GPT-5.2-Thinking 的 45.5、Gemini 3 Pro 的 45.8，录得当前所有模型的最高分。

面向即将到来的智能体 Agent 时代，Qwen3-Max-Thinking 还大幅增强了自主调用工具的原生 Agent 能力。具体而言，在完成初步的工具使用微调后，通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练，使得 Qwen3-Max-Thinking 拥有更智能结合工具进行思考的能力。这种自适应的工具调用能力可在 QwenChat 上完整体验，模型自主选用搜索、个性化记忆和代码解释器等三个核心的 Agent 工具功能，提供专业人士一样水平的回答，更合用户心意、更智能、更流畅；同时，模型幻觉也大为降低，为解决真实复杂任务打下基础。

目前，开发者可在 QwenChat 上免费体验 Qwen3-Max-Thinking 模型，企业可通过阿里云百炼获取新模型 API 服务，普通用户也可通过千问 PC 端和网页端试用模型。据了解，千问 APP 也即将接入新模型，所有用户都可免费体验千问最强模型。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

阿里千问最强模型重磅亮相！性能媲美 GPT-5.2、Gemini 3 Pro

宙世代

一起剪

相关阅读

苹果发布新款AirTag 查找范围更广 音量更大 29美元起

汽车转向强制性国标发布，多家快递春节不打烊，李想要求人形机器人尽快落地亮相，特斯拉无人出租车4月量产，这就是今天的其他大新闻！

“不差钱”的银河通用机器人也要上春晚了，表演方式“不便回复”

奥比中光董事长黄源浩：将广东打造为具身智能“全球主场”

卢伟冰官宣Turbo 5系列发布会主讲人 魏思琪上阵首次主讲REDMI

爱立信预计2026年继续裁员5000人；马化腾：腾讯唯一花钱投入比较多的就是AI；肯德基外卖涨价，平均上调0.8元

腾讯的社交实验：当 AI 混进人类「群聊」

华为新折叠曝光：代号“Hope” 或为Pura X2 有四款配色

李想临时召开线上公司全员会，不谈汽车谈AI

腾讯云的AI阳谋：绕开价格战，押注SaaS与生态“确定性”

麦当劳店员被拍手伸进麦乐鸡盒玩手机 门店回应：已扔掉纸盒重新消毒

航天级黑科技下凡！石头G30S Pro携底盘升降3.0上市：0缠绕横扫全场景

国产AI芯企上市浪潮的核心逻辑

中国已建成世界规模最大寄递网络 年快递业务量近2000亿件

追觅科技与央视携手，打造新式年会《敢梦敢为·追觅之夜》

最新评论

雷峰网

热门推荐

苹果发布新款AirTag 查找范围更广音量更大 29美元起

卢伟冰官宣Turbo 5系列发布会主讲人魏思琪上阵首次主讲REDMI

麦当劳店员被拍手伸进麦乐鸡盒玩手机门店回应：已扔掉纸盒重新消毒

中国已建成世界规模最大寄递网络年快递业务量近2000亿件