昆仑万维发布 Skywork R1V4-Lite：用 30B 多模态模型打平 Gemini 2.5 Pro，速度还快 19 倍

2025 年几乎被一致包装成 AI Agent 之年。从大模型到 Agent 转向，行业讲述的故事是，AI 不再只是一个会聊天、会生成文本的工具，而要变成能理解目标、拆解任务、自动调用各种服务的 " 数字执行者 "。在 PPT 和发布会上，这听起来是一次从会说话到会干活的范式转变。

但第一批把这一愿景装进硬件里的产品，很快给了现实的一记耳光。Rabbit R1 带着 "Large Action Model" 的叙事亮相，号称能像真人一样在各类 App 里订机票、点外卖、完成整条流程。然而真正到用户手里，它更多像是一台性能有限、响应迟缓、依赖云端的一部功能不完善的手机，宣传中的自动化场景要么不可用，要么极不稳定，交互体验也并未跳出传统语音助手的框架，最终被普遍视为一场高调开局、低质量收场的失败实验。

这并不意味着 Agent 本身是伪命题，而是提醒我们把 Agent 做成一台独立硬件，可能一开始就选错了战场。与其再造一块昂贵却鸡肋的设备，不如把 " 能看、能想、能行动 " 的能力压缩成一个可以嵌入任意应用的轻量模型。

在这一背景下，昆仑万维最新发布的 Skywork R1V4-Lite（以下简称 "R1V4-Lite"），试图成为那个 " 能行动 " 的 Agent。它不标榜自己是巨无霸，反而强调 " 轻量级 "（Lite），其核心定位是，首次在轻量级架构下，统一了主动图像操作、外部工具调用和多模态深度研究三大能力。

抛开噱头，只讨论感知—推理—行动这条链路本身时，今天的技术到底已经走到了哪一步。

我们设计了一系列高难度的真实场景，来看看 R1V4-Lite 的表现。

对 Skywork R1V4-Lite 的技术细节和在线使用感兴趣的读者，也可以通过以下链接获取更多信息：

Skywork API 平台 ( 可在线体验 ) :

https://platform.skyworkmodel.ai/

Github 开源地址 :

https://github.com/SkyworkAI/Skywork-R1V

技术报告 :

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf

API 接口文档 :

https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html

Novita AI ( 第三方平台 ) :

https://novita.ai/ 模糊手写体小票收据识别

为了测试它是不是真的能行动，我们没有给它一张清晰的打印小票，而是递上了一张只有 400x300 像素、字迹潦草的手写收据。

给它的任务是：" 这张收据上，第二项‘空调加雪种’的金额是多少钱？"

R1V4-Lite 的第一反应没有像传统模型那样 " 一眼答 "（或者直接瞎猜），而是在模型思考中承认了视觉局限。

我能看清一些手写的金额，但我需要集中注意力 ... 让我裁切 ... 以获得更清晰的视野。

接下来的行动。它直接调用了 code 工具，当场为自己造了一个裁切工具。

它自己 import 了 PIL 库，自己计算了坐标，自己执行了 img.crop。来解决眼前这个模糊问题。

在它自己写代码、自己裁切图片之后，R1V4-Lite 进入了第二轮的思考，并给出了正确的答案

这个就是 Agent 的属性，看不清时，会自己想办法来解决问题。

作为对比，我们也让 ChatGPT5.1 来完成同样的任务，但并没有准确识别，可以看到它并没有主动使用工具：

AI 看图定制菜谱

我们继续来测试一下 R1V4-Lite 的外部工具调用和任务规划能力，包括联网搜索能力，把这些加在一起，看看它处理的怎么样。

" 帮我看看冰箱里这些东西，晚上能做点什么吃的？帮我规划一下，最好能找个菜谱。"

我们给它的，也不是一个塞满新鲜食材的摆拍冰箱，而是一个极其真实的 " 打工人 " 冰箱，里有几瓶牛奶、一堆酱料、一根玉米和一些速食。

和前一个案例一样，R1V4-Lite 的第一反应是动脑和动手。它在模型思考中判断，需要先聚焦到关键食材上。

在看清了食材（牛奶、玉米、沙茶酱等）之后，它尝试调用 image_search 工具，用它刚裁切的图片去网上搜菜谱。

有意思的是，搜索失败了。只返回了一堆卖冰箱收纳盒的亚马逊链接和意义不明的 YouTube 视频。

换做一些别的模型，可能就卡住或者瞎编了。

不过 R1V4-Lite 接下来识别到了自己的失败，并切换了策略。它放弃了 image_search，转而调用 text_search，搜索关键词："simple recipes corn satay sauce bean paste..."

在 text_search 返回了一些初步结果后（比如沙茶鸡肉），它在轮次 4 的思考中觉得还不够精准（因为冰箱里没鸡肉），于是它再次精炼了关键词，进行了第二次 text_search。

在经过了裁切看清 -> 搜图失败 -> 换策略搜文字 -> 再搜文字，这一系列复杂的行动和思维链后，在 " 轮次 5" 汇总了所有信息，给出了一个非常合乎逻辑的回答。

最终答案：

推荐菜单：玉米沙茶酱炒菜

备选方案 1：奶油玉米汤

备选方案 2：蔬菜炒菜

贴心提示：你的牛奶可以当做 " 提神小食 "。

为了验证 " 玉米沙茶酱炒菜 " 是不是什么黑暗料理，我们进行了人工验证。发现这是闽南、潮汕和台湾一带常见的家常做法。所以 R1V4-Lite 给出的并不是一个敷衍的结果，而是包含多种选择的方案。

" 专家级 " 推理：医学博士的考题

如果说前两个案例是 " 随手拍、解万难 "，那这第三个案例就是一次专业的极限挑战。试试 R1V4-Lite 能不能解决医学博士级别的考题。

任务：看懂下面这张复杂的组织学病理切片，并诊断出它最符合哪种疾病特征。

【插入视频】

[ 病理放大 .mp4 ]

对于普通人来说，这种病理切片里的紫色圆圈和斑点毫无意义。但 R1V4-Lite 的反应，展示了它作为 " 深度研究 " 型 Agent 的能力。

它先是识别出图像 A 区域那些不规则聚集的细胞，并将其定性为 " 非干酪样肉芽肿 "（Non-caseating granuloma）。

然后调用了专业医学知识库，将这个视觉特征（" 非干酪样肉芽肿 "）与疾病（" 克罗恩病 "）的典型特征进行了高速匹配和验证。

最终给出了一个精准、专业的诊断结论：该特征与 " 克罗恩病 "（Crohn ’ s disease）一致。

识破 " 野史 " 谣言：康熙到底是不是洪承畴的爹？

测完了硬核的医学问题，再来考考它的文科功底。我们在网上找了一张近期热议的历史话题，康熙帝与洪承畴的关系。最近有传闻称洪承畴 " 狸猫换太子 " 云云，并列举一系列证据，比如什么光绪帝 Y 染色体遗传标记与爱新觉罗家族没关系等等。如果是一个只会检索引用的 AI，很容易被搜索到的野史带偏，R1V4-Lite 能不能厘清事实？

R1V4-Lite 的表现很像一个严谨的 " 考据党 "。

在第一轮搜索中，它捕捉到了网络上关于两人关系的争议点："I can see that there's a common myth... that Emperor Kangxi was actually the biological son of Hong Chengchou." （我发现有一个普遍的传说，说康熙是洪承畴的亲生儿子。）

但它没有轻信，而是触发了 DeepSearch 逻辑，分别调用 web_visit 访问了维基百科，查证两人的确切生卒年。

这里有一次逻辑推理，洪承畴出生于 1593 年，康熙出生于 1654 年。两人年龄相差 61 岁，且两人之间的实际关系是君臣关系。洪承畴是明清两代的高级官员，效力于康熙的父辈（顺治皇帝及其后的摄政时期）。

最终答案就很明显了：关于康熙是洪承畴亲生子的说法实属现代网络谣言，历史学者已予以澄清，两者年龄差距使得这种关系在时间线上根本不可能成立。

这个案例证明了这种多模态深度研究能力，不仅仅是联网搜答案。它还需要模型具备反思和批判性思维，能从纷繁复杂的网络信息中，识别谣言、查证数据、并给出基于事实的独立判断，这在信息过载的今天尤为重要。

Planner 模式：复杂指令下的多工具协同规划

除了 R1V4-Lite，这次昆仑万维还推出了 R1V4-planner-lite 。如果说 R1V4-Lite 是能行动的轻量级多模态智能体，它是引擎。而 R1V4-planner-lite 则像是这个引擎的一种高级工作模式，是一种导航系统或任务规划器。

我们来看看它是怎么工作的，任务：（给模型一张 Jacob Elordi 的街拍图）" 我喜欢这个人的穿搭。请帮我规划一下怎么买到这身衣服：识别出他身上所有的主要单品（帽子、外套、内搭、裤子和鞋子）。帮我全网搜索每个单品的品牌和大概价格。如果太贵了，帮我找几个风格相似的平价替代品链接。"

R1V4-planner-lite 制定了一份详尽的长达 8 步执行计划。

执行计划（节选）：

[ image_search ] ：识别图片中人物的所有穿搭单品和配饰。

[ text_search ] ：搜索 " 蓝色 LA 帽子 " 的品牌和价格。

[ text_search ] ：搜索 " 蓝色卫衣 " 的品牌和价格。

[ text_search ] ：搜索 " 浅蓝牛仔裤 " 的品牌和价格。

[ text_search ] ：搜索 " 红色运动鞋 " 的品牌和价格。

[ text_search ] ：搜索 " 黑色绗缝包 " 的品牌和价格。

[ text_search ] ：为上述每个单品搜索 "100 美元以下 " 的平价替代品。

[ none ] ：汇总所有发现 ...

可以看到，R1V4-planner-lite 能将模糊的扒穿搭指令，分解为 8 个有依赖关系的步骤，并为每一步精准匹配了 image_search、text_search 或 web_visit 等工具。特别是它精准识别出了 " 黑色绗缝包 "（Black quilted bag）这一细节，并为其单独规划了搜索步骤，证明了其视觉识别的细腻度。所以模型真的不再只是给个答案，而是帮你办事，并且在行动前，就能先给出一份完整的 SOP。

" 看天吃饭 "：基于环境条件的动态规划

如果说扒穿搭展示了 R1V4-planner-lite 的线性拆解能力，那么最后这个测试，则是为了验证它是否具备更动态决策能力。现实世界充满了变数。很多时候，我们需要的不是一个死板的执行列表，而是一个视情况而定的方案。

上传了一张随手拍摄的照片，任务：我现在在图中这个地方。我想在附近玩两个小时。请帮我做一个规划，先识别出这是哪里。再帮我搜索一下这个地方未来 3 小时的天气情况。根据天气情况帮我做决定：如果下雨，就帮我找一个附近评分最高的室内咖啡厅或博物馆，如果没有雨，就帮我找一个附近的公园或户外步行路线。最后告诉我推荐地点的具体地址和今天的营业时间。

面对这个包含分支逻辑的指令，R1V4-planner-lite 把用户给出的需求，直接写进了搜索参数里。

执行计划如下：

Step 1: [ image_search ] 识别图片中的地点。

Step 2: [ text_search ] 搜索 " [ 地点 ] 未来 3 小时天气预报 "。

Step 3 ( 关键一步 ) : [ text_search ] 参数中明确写入了逻辑—— "Based on the weather forecast, search for nearby indoor venues... if rain is expected, or outdoor venues... if no rain." （基于天气预报，如果下雨则搜室内场馆，如果没雨则搜户外公园。）

Step 4: [ web_visit ] 访问具体网页确认地址和营业时间。

Step 5: [ none ] 汇总信息。

这一点其实很关键。传统的 Workflow 通常只能执行固定的 A->B->C，一旦遇到 " 看情况 " 的模糊指令往往会卡壳。而 R1V4-planner-lite 能读懂自然语言里的逻辑分支，并将其翻译成可执行的搜索策略，而不是只会执行固定的代码模版。

为什么 Lite，反而很 Pro？

我们的测试过程中可以感受到，R1V4-Lite 在真实任务中的表现是可靠且可用的。不过，更值得注意的恰恰是它名字里的这个 Lite（轻量级），它展现出的行动与理解能力，与其模型体量之间存在明显反差。

这与 Rabbit R1 等产品翻车之后行业逐渐形成的一种共识相呼应，AI 的演进方向，未必是单一超大模型包打天下，而更可能是由多个体量较小、功能聚焦的模型协同构成的体系。

根据官方发布的数据，在 8 个多模态理解基准上，R1V4-Lite 整体领先 Gemini 2.5 Flash，并在其中 5 项任务上超过 Gemini 2.5 Pro。在多模态 DeepResearch 任务上也呈现出接近甚至领先的趋势。

与之相对，它在工程指标上的 " 轻 " 同样突出：响应延迟约为 Gemini 2.5 Pro 的 1/19、Flash 的 1/5，而 Token 吞吐量（TPS）接近它们的 2 倍左右。对于高并发、低延迟要求明显的生产场景（如实时助手、视觉检索），这样的 " 快、省、够用 " 的 Lite 模型，在成本与体验上的综合价值，确实有可能优于 " 大而慢 " 的 Pro 级模型。

也就是说，相比单纯追求参数规模，AI Agent 的 " 能力密度 " 也是值得关注的方向。昆仑万维将 R1V4-Lite 的表现，归因于其 " 图像操作 × 深度推理交织训练 " 的范式，试图用更紧凑的训练路径，让小模型逼近顶级闭源模型在多模态推理与行动上的表现。

数据处理流程是 Skywork-R1V4 实现 " 边观察、边思考、边行动 " 这种复杂 Agent 行为的基石，通过自动化的代码执行和严格的验证，确保了训练数据的 " 能力密度 " 远高于数据规模。

在路线选择上，昆仑万维也释放出相对清晰的信号。一方面，R1V4-Lite（及其 Planner）以开源形式提供，这在一定程度上降低了开发者构建 " 行动 Agent" 的门槛，有利于围绕这一范式形成工具链与生态；另一方面，从此前的 Skywork-R1V 系列（如 R1V 2.0、R1V 3.0）可以看出，当前版本不是一次性投入的产物，而是从 R1V 2.0、3.0 的多模态思维链推理，到如今 R1V4-Lite Agent 能力的持续迭代积累。

当然，能力密度并不意味着问题已经解决。当前结果主要依赖有限数量的基准与典型场景，在更开放、多变、乃至对抗性的环境中，轻量模型是否仍能保持稳定的规划与行动质量，仍需更多实证验证。同时，如何在保证推理能力的前提下，将这类模型安全、低成本地嵌入现有业务系统（包括工具编排、权限控制与监控），也会决定它们能否真正走出实验室。

总体来看，R1V4-Lite 提供了一种值得重视的样本，未来的 Agent 未必长在 " 超大模型 " 的单一树干上，更可能以一批高效、可部署、真正 " 能动手 " 的轻量多模态模型为基础，在从 " 思考 " 走向 " 行动 " 的过程中，探索出更务实的工程形态。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

昆仑万维发布 Skywork R1V4-Lite：用 30B 多模态模型打平 Gemini 2.5 Pro，速度还快 19 倍

宙世代

一起剪

相关阅读

一加Ace 6T轻松实现FPS手游165无限满帧：同档无敌

快手13篇论文入选NeurIPS2025 Spotlight成果均分跻身前三

提高手机平均售价！卢伟冰给小米手机目标：2030年高端机卖3000万台

全球首款可全天候佩戴的隐形显示AI眼镜，Gyges Labs完成新一轮融资

阿里千问App上线公测，计算机ETF（159998）全市场同类规模最大，布局AI软件+硬件

天马发布49.6英寸车载全景沉浸天轩屏：能变弯的中控屏也来了

全年研发超300亿元！卢伟冰：持续加大研发投入 尤其是硬核技术

中国大陆电竞显示器最新销量出炉：AOC第一断层领先 小米跻身第五增长最高

网络安全公司Cloudflare已修复故障，ChatGPT和X等服务恢复正常

一加Ace 6T首发超8000mAh电池+100W闪充 网友：only一加can do

昆仑万维发布Skywork R1V4-Lite：用30B多模态模型打平Gemini 2.5 Pro，速度还快19倍

一顿饭省5毛，羊毛党被“代下单”狠狠套牢

索尼A7M5曝光：全新3300万像素部分堆叠式传感器

从“谋生工具”到“创富伙伴”，五菱品牌40周年发布“奋斗者专项计划”为梦想助力

最新评论

硅星人

全年研发超300亿元！卢伟冰：持续加大研发投入尤其是硬核技术

中国大陆电竞显示器最新销量出炉：AOC第一断层领先小米跻身第五增长最高

一加Ace 6T首发超8000mAh电池+100W闪充网友：only一加can do