仅 4B！阿里千问最强视觉模型新开源，网友：我的 16GB Mac 有救了

智东西

作者 | 李水青

编辑 | 心缘

智东西 10 月 15 日报道，今日，阿里通义千问团队推出其最强视觉语言模型系列 Qwen3-VL 的 4B 与 8B 版本，两个尺寸均提供 Instruct 与 Thinking 版本，在几十项权威基准测评中超越 Gemini 2.5 Flash Lite、GPT-5 Nano 等同级别顶尖模型。

阿里千问团队公告截图（图源：X 平台）

这两个新版本模型实现了以下关键目标 :

1、资源门槛更低：尺寸缩减显著降低 VRAM 的占用。现在，开发者可以在更广泛的硬件设备上部署和运行模型。

2、核心能力不减配：在缩减尺寸的同时，其完整保留了 Qwen3-VL 的全部核心功能。

3、基准性能优秀：在 STEM、VQA、OCR、视频理解及 Agent 任务等多个权威基准上，其表现不仅超越了 Gemini 2.5 Flash Lite 和 GPT-5 Nano，在许多场景下甚至能与阿里半年前的旗舰模型 Qwen2.5-VL-72B 相媲美。

如下图所示，在多模态性能方面，Qwen3-VL-8B Instruct 在 MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot 等 30 项权威基准测评中取得 SOTA（行业最佳）成绩，超越了 Gemini 2.5 Flash Lite、GPT-5 Nano 以及 Qwen2.5-VL-72B 等顶尖模型。

Qwen3-VL-8B Instruct 与 Qwen3-VL-4B Instruct 基准测评情况（图源：Qwen）

Qwen3-VL-4B Instruct 也展现出优秀的多模态性能，以更少的参数量，在 STEM、VQA、OCR、视频理解及 Agent 任务等测评中，能与 Gemini 2.5 Flash Lite、GPT-5 Nano 对打。

在纯文本表现上，如下图所示，Qwen3-VL-8B Instruct 和 Qwen3-VL-4B Instruct 也相比 Qwen3-4B Instruct-2507 和 Qwen3-8B Non-Thinking 有整体提高。

Qwen3-VL-8B Instruct 与 Qwen3-VL-4B Instruct 基准测评情况（图源：Qwen）

在多模态性能方面，Qwen3-VL-8B Thinking 取得了 MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench 等 23 项权威基准测评的 SOTA，超越 Gemini 2.5 Flash Lite、GPT-5 Nano 高版本以及其他同等级顶尖开源模型。Qwen3-VL-4B Thinking 同样表现出 " 以小敌大 " 的成绩。

Qwen3-VL-8B Thinking 与 Qwen3-VL-4B Thinking 基准测评情况（图源：Qwen）

在纯文本表现上，Qwen3-VL-8B Thinking 和 Qwen3-VL-4B Thinking 相比于 Qwen3-4BThinking-2507 和 Qwen3-8B Thinking 有整体提高。

Qwen3-VL-8B Thinking 与 Qwen3-VL-4B Thinking 基准测评情况（图源：Qwen）

该模型一经发布，就在外网引起了不少开发者关注。不少人对此表示一直在等这个，有人称：" 终于，我在 16GB 的 Mac 上可以用了。" 也有不少人开始催更 Qwen3-Max 及其他更多版本模型了。

外网用户对新版本 Qwen3-VL 的评论（图源：X 平台）

自 9 月 24 日阿里开源 Qwen3-VL 系列以来，作为 Qwen 系列中最强的视觉语言模型，该模型在全球 AI 开源社区中快速收获认可。（《阿里又一大模型开源，手机电脑样样玩的溜，多项测试秒 GPT-5》）

在 9 月底的 Chatbot Arena 子榜单 Vision Arena 中，Qwen3-VL 位居第二，是视觉理解领域中的全球开源冠军；同时，Qwen3-VL 还斩获纯文本赛道（Text Arena）的开源第一（全球第 8），成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。

在 Vision Arena 中 Qwen3-VL 位居第二（图源：Qwen）

并且，Qwen3-VL 还在全球知名的大模型 API 三方聚合平台 OpenRouter 图像处理榜单上以 48% 的市场份额跃升至全球第一。

Qwen3-VL 在 OpenRouter 图像处理榜单上表现（图源：OpenRouter）

近期，阿里还推出 Qwen3-VL Cookbook（使用指南），涵盖图像思维、计算机使用 Agent、多模态变成、3D 定位、空间推理、视频理解等多种多模态用例，助用户高效上手和深度应用。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

仅 4B！阿里千问最强视觉模型新开源，网友：我的 16GB Mac 有救了

宙世代

一起剪

最新评论

智东西

热门推荐