在电影《银翼杀手 2049》中,虚拟伴侣 Joi 能通过全息投影与现实世界无缝互动。她能感知主角 K 的情绪为他挑选音乐,也能理解 K 的指令,将自己的形象投放到城市的广告牌上,与他同步体验雨中漫步。她不仅在看和听,更在理解 K 所处的复杂环境和他的潜在需求,并作出恰当且充满人情味的反应。
这种科幻场景要走入现实,AI 需要跨越的,并非只是单纯的数据量或算力。有趣的是,现实中的突破路径和科幻设想有所不同,研究者们发现,真正的关键在于通过 GRPO(Group Relative Policy Optimization)这样的强化学习算法,让 AI 像人类一样通过试错来学习,自己找到整合不同信息的最佳策略。
昆仑万维最新开源的 Skywork R1V 3.0,就是这一探索路径下的产物。它最核心的思路,就是借助强化学习,将在数学等领域学到的严谨推理能力,迁移并泛化到物理、化学、医学乃至更广泛的现实世界问题中,试图让 AI 离那个理想中的 Joi 更近一步。
目前,昆仑万维已全面开源 Skywork R1V 3.0 的所有资源,旨在推动多模态推理社区的进一步发展:
模型权重:
技术报告:xxx(待补充)
代码仓库:
从 " 偏科生 " 到 " 六边形战士 ",寻找能力的平衡点
如何评价一个 AI 模型的好坏?在今天,只看它在某个单项上跑分有多高,可能已经不够了。更重要的,是看它的能力曲线是否平滑,在面对五花八门的问题时,表现是否足够稳定。
在这方面,R1V 3.0 交出了一份很有意思的答卷。它在一个名为 MMMU 的权威评测上,取得了 76.0 分的成绩 。这个分数距离人类初级专家的平均水平(76.2 分)只有一步之遥 ,同时也超过了一些知名的闭源模型,比如 Claude 3.7 Sonnet 的 75.0 分和 GPT-4.5 的 74.4 分 。
MMMU 之所以重要,是因为它不像传统的单科竞赛,更像一场包含理工、人文、医学、艺术等多个领域的 " 跨学科高考 " 。能在这里拿到高分,背后透露出的信息是,这个模型的能力不偏科,知识结构相对均衡。这或许是让 AI 智能的 " 锯齿 " 变得更平滑、更可靠的一种体现。
当然,均衡不代表平庸。在物理、逻辑和数学等更考验硬核推理能力的评测中,它同样拿下了多个开源模型的最佳成绩 。
跑分终究是跑分。想知道一个模型是真学霸还是纸老虎,得拉出来实战遛遛。我们直接上题,看看它在不同场景下的真实表现。
在 2025 年高考数学新一卷的测试中,R1V 3.0 取得了 142 分的成绩,达到了开源多模态推理模型的最优结果,其表现已逼近多款业界领先的闭源模型水平:
R1V 3.0
如果说高中题只是开胃菜,那大学的电路分析题就是正餐了。我们给它一道有一定分析深度的英文大学电路理论分析题 ,它能准确识别题目中 "unit ramp"(单位斜坡电压)的含义,严格依据基尔霍夫电压定律列出微分方程,并用积分因子法系统地求解,推导逻辑自洽、过程条理清晰 。这证明了它的推理能力确实有深度。
接下来,我们来看一道具有一定分析深度的英语版的大学电路理论分析题。从中可以看出,即便是这样具有挑战性的大学层次题目,R1V 3.0 依然能够准确给出解答。
Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages with zero initial condition for L = 0.1H;
文史医,AI 的 " 知识盲区 " 还是 " 舒适区 "?
跳出数理化,在更广阔的知识领域里又如何?我们向模型提问:" 在下图中,P 波代表 ___________,QRS 段表示 ___________,T 波代表 _____________。"
而面对一位有 20 年肝硬化病史的患者的 CT 影像,它也能结合病史和影像学特点,推理出 " 肝细胞癌 " 的最可能诊断,并列出其他可能性以供鉴别 。
最后,来看一些更开放、更接近生活的 " 非标 " 问题。比如这个高难度的 " 看图猜地方 " 游戏:我们要求模型根据一张图片里的建筑、植被、标识牌等线索,推断出其所在的大洲、国家、城市乃至经纬度 。R1V 3.0 展现出了极强的综合认知能力,通过层层推理,最终成功锁定了地点 。
模型表现这么好,背后用了什么巧妙的技术?Skywork R1V 3.0 的技术路径很有意思,它没有依赖海量数据和算力硬堆,而是把重点放在了模型的后训练阶段,更像一场精细的调优 。
这条路径始于能力的嫁接与强化。团队基于 R1V 2.0 做冷启动,让模型一出生就具备不错的多模态推理基础 。随后引入 GRPO 强化学习算法,对模型进行深度激发,让强大的文本推理能力成功嫁接到多模态任务上 。值得一提的是,这个过程借助 GRPO 强化学习算法,实现高效泛化,仅用了约 1.2 万条高质量监督微调样本和 1.3 万条强化学习样本,就实现了多学科推理能力的显著提升 。
解决了推理的真伪问题,还有一个挑战是知识的均衡。由于强化学习阶段的训练数据以数学问题为主,模型的能力会有些偏科 。为此,团队在强化学习之后,专门引入了一个针对连接器,也就是连接视觉和语言的桥梁,的微调步骤 。这一步有效地平衡了模型的知识结构,让它在保持理科优势的同时,也补上了文史、艺术等领域的短板,成了一个更全面的通才 。
结语
从最开始那个可能看不懂 Meme 的 AI,到最后这个更均衡、更稳健的模型版本,Skywork R1V 3.0 的迭代过程,本身就在试图解决当前 AI 最棘手的几个问题。它证明了,在行业普遍追求更高、更快、更强的同时,通过精细的后训练调优,让 AI 想得更稳、更可靠,是一条同样重要且可行的路。
这背后是对 " 可靠性 " 的追求。尤其在 2025 年,当 AI 开始被更严肃地探讨用于医疗诊断、金融合规等高风险领域时,可靠性已经从一个加分项变成了必选项。未来的 AI 竞争,可能不再只是参数和分数的比拼,更是看谁的系统在关键时刻更值得信赖。一个真正可用的 AI,需要具备某种程度的 " 认知谦逊 ":知道自己的能力边界,并在不确定时,懂得把决策交还给人类。
而昆仑万维选择将 Skywork R1V 3.0 完全开放的做法,本身就体现了这种对可靠性和透明性的追求。实际上,这也不是一次孤立的行动,而是其构建以推理能力为主线的技术体系的一部分,此前他们已陆续开源了 Skywork-OR1 文本推理模型和 SkyReels-V1 视频生成模型等多个项目。这种系统性的开源,以及将技术细节、探索发现都展示给社区的做法,让人们能够更好地检验和理解模型,这恰恰是通往信任的关键一步。
归根结底,技术的发展终究要回归到具体的人和具体的问题上,这可能比宏大的叙事要走得更远。