关于ZAKER 合作
智东西 18小时前

仅 4B!阿里千问最强视觉模型新开源,网友:我的 16GB Mac 有救了

智东西

作者 | 李水青

编辑 | 心缘

智东西 10 月 15 日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列 Qwen3-VL 的 4B 与 8B 版本,两个尺寸均提供 Instruct 与 Thinking 版本,在几十项权威基准测评中超越 Gemini 2.5 Flash Lite、GPT-5 Nano 等同级别顶尖模型。

阿里千问团队公告截图(图源:X 平台)

这两个新版本模型实现了以下关键目标 :

1、资源门槛更低:尺寸缩减显著降低 VRAM 的占用。现在,开发者可以在更广泛的硬件设备上部署和运行模型。

2、核心能力不减配:在缩减尺寸的同时,其完整保留了 Qwen3-VL 的全部核心功能。

3、基准性能优秀:在 STEM、VQA、OCR、视频理解及 Agent 任务等多个权威基准上,其表现不仅超越了 Gemini 2.5 Flash Lite 和 GPT-5 Nano,在许多场景下甚至能与阿里半年前的旗舰模型 Qwen2.5-VL-72B 相媲美。

如下图所示,在多模态性能方面,Qwen3-VL-8B Instruct 在 MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot 等 30 项权威基准测评中取得 SOTA(行业最佳)成绩,超越了 Gemini 2.5 Flash Lite、GPT-5 Nano 以及 Qwen2.5-VL-72B 等顶尖模型。

Qwen3-VL-8B Instruct 与 Qwen3-VL-4B Instruct 基准测评情况(图源:Qwen)

Qwen3-VL-4B Instruct 也展现出优秀的多模态性能,以更少的参数量,在 STEM、VQA、OCR、视频理解及 Agent 任务等测评中,能与 Gemini 2.5 Flash Lite、GPT-5 Nano 对打。

在纯文本表现上,如下图所示,Qwen3-VL-8B Instruct 和 Qwen3-VL-4B Instruct 也相比 Qwen3-4B Instruct-2507 和 Qwen3-8B Non-Thinking 有整体提高。

Qwen3-VL-8B Instruct 与 Qwen3-VL-4B Instruct 基准测评情况(图源:Qwen)

在多模态性能方面,Qwen3-VL-8B Thinking 取得了 MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench 等 23 项权威基准测评的 SOTA,超越 Gemini 2.5 Flash Lite、GPT-5 Nano 高版本以及其他同等级顶尖开源模型。Qwen3-VL-4B Thinking 同样表现出 " 以小敌大 " 的成绩。

Qwen3-VL-8B Thinking 与 Qwen3-VL-4B Thinking 基准测评情况(图源:Qwen)

在纯文本表现上,Qwen3-VL-8B Thinking 和 Qwen3-VL-4B Thinking 相比于 Qwen3-4BThinking-2507 和 Qwen3-8B Thinking 有整体提高。

Qwen3-VL-8B Thinking 与 Qwen3-VL-4B Thinking 基准测评情况(图源:Qwen)

该模型一经发布,就在外网引起了不少开发者关注。不少人对此表示一直在等这个,有人称:" 终于,我在 16GB 的 Mac 上可以用了。" 也有不少人开始催更 Qwen3-Max 及其他更多版本模型了。

外网用户对新版本 Qwen3-VL 的评论(图源:X 平台)

自 9 月 24 日阿里开源 Qwen3-VL 系列以来,作为 Qwen 系列中最强的视觉语言模型,该模型在全球 AI 开源社区中快速收获认可。(《阿里又一大模型开源,手机电脑样样玩的溜,多项测试秒 GPT-5》)

在 9 月底的 Chatbot Arena 子榜单 Vision Arena 中,Qwen3-VL 位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL 还斩获纯文本赛道(Text Arena)的开源第一(全球第 8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。

在 Vision Arena 中 Qwen3-VL 位居第二(图源:Qwen)

并且,Qwen3-VL 还在全球知名的大模型 API 三方聚合平台 OpenRouter 图像处理榜单上以 48% 的市场份额跃升至全球第一。

Qwen3-VL 在 OpenRouter 图像处理榜单上表现(图源:OpenRouter)

近期,阿里还推出 Qwen3-VL Cookbook(使用指南),涵盖图像思维、计算机使用 Agent、多模态变成、3D 定位、空间推理、视频理解等多种多模态用例,助用户高效上手和深度应用。

相关标签

最新评论

没有更多评论了