作者 | 李水青
编辑 | 心缘
智东西 10 月 15 日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列 Qwen3-VL 的 4B 与 8B 版本,两个尺寸均提供 Instruct 与 Thinking 版本,在几十项权威基准测评中超越 Gemini 2.5 Flash Lite、GPT-5 Nano 等同级别顶尖模型。
阿里千问团队公告截图(图源:X 平台)
这两个新版本模型实现了以下关键目标 :
1、资源门槛更低:尺寸缩减显著降低 VRAM 的占用。现在,开发者可以在更广泛的硬件设备上部署和运行模型。
2、核心能力不减配:在缩减尺寸的同时,其完整保留了 Qwen3-VL 的全部核心功能。
3、基准性能优秀:在 STEM、VQA、OCR、视频理解及 Agent 任务等多个权威基准上,其表现不仅超越了 Gemini 2.5 Flash Lite 和 GPT-5 Nano,在许多场景下甚至能与阿里半年前的旗舰模型 Qwen2.5-VL-72B 相媲美。
如下图所示,在多模态性能方面,Qwen3-VL-8B Instruct 在 MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot 等 30 项权威基准测评中取得 SOTA(行业最佳)成绩,超越了 Gemini 2.5 Flash Lite、GPT-5 Nano 以及 Qwen2.5-VL-72B 等顶尖模型。
Qwen3-VL-4B Instruct 也展现出优秀的多模态性能,以更少的参数量,在 STEM、VQA、OCR、视频理解及 Agent 任务等测评中,能与 Gemini 2.5 Flash Lite、GPT-5 Nano 对打。
在纯文本表现上,如下图所示,Qwen3-VL-8B Instruct 和 Qwen3-VL-4B Instruct 也相比 Qwen3-4B Instruct-2507 和 Qwen3-8B Non-Thinking 有整体提高。
在多模态性能方面,Qwen3-VL-8B Thinking 取得了 MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench 等 23 项权威基准测评的 SOTA,超越 Gemini 2.5 Flash Lite、GPT-5 Nano 高版本以及其他同等级顶尖开源模型。Qwen3-VL-4B Thinking 同样表现出 " 以小敌大 " 的成绩。
在纯文本表现上,Qwen3-VL-8B Thinking 和 Qwen3-VL-4B Thinking 相比于 Qwen3-4BThinking-2507 和 Qwen3-8B Thinking 有整体提高。
该模型一经发布,就在外网引起了不少开发者关注。不少人对此表示一直在等这个,有人称:" 终于,我在 16GB 的 Mac 上可以用了。" 也有不少人开始催更 Qwen3-Max 及其他更多版本模型了。
自 9 月 24 日阿里开源 Qwen3-VL 系列以来,作为 Qwen 系列中最强的视觉语言模型,该模型在全球 AI 开源社区中快速收获认可。(《阿里又一大模型开源,手机电脑样样玩的溜,多项测试秒 GPT-5》)
在 9 月底的 Chatbot Arena 子榜单 Vision Arena 中,Qwen3-VL 位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL 还斩获纯文本赛道(Text Arena)的开源第一(全球第 8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。
并且,Qwen3-VL 还在全球知名的大模型 API 三方聚合平台 OpenRouter 图像处理榜单上以 48% 的市场份额跃升至全球第一。
近期,阿里还推出 Qwen3-VL Cookbook(使用指南),涵盖图像思维、计算机使用 Agent、多模态变成、3D 定位、空间推理、视频理解等多种多模态用例,助用户高效上手和深度应用。