关于ZAKER 合作
硅星人 45分钟前

高考数学 142 分,多学科推理 MMMU 跑分 76.0 直逼人类专家,Skywork R1V 3.0 用强化学习探索跨学科推理

在电影《银翼杀手 2049》中,虚拟伴侣 Joi 能通过全息投影与现实世界无缝互动。她能感知主角 K 的情绪为他挑选音乐,也能理解 K 的指令,将自己的形象投放到城市的广告牌上,与他同步体验雨中漫步。她不仅在看和听,更在理解 K 所处的复杂环境和他的潜在需求,并作出恰当且充满人情味的反应。

这种科幻场景要走入现实,AI 需要跨越的,并非只是单纯的数据量或算力。有趣的是,现实中的突破路径和科幻设想有所不同,研究者们发现,真正的关键在于通过 GRPO(Group Relative Policy Optimization)这样的强化学习算法,让 AI 像人类一样通过试错来学习,自己找到整合不同信息的最佳策略。

这种方法恰好针对了当前 AI 的一个要害,也就是如何让多模态能力从信息拼接升级为真正的融合理解。传统方法就像给 AI 一本厚厚的说明书,告诉它每种情况的标准答案。而强化学习则更像给了 AI 一个实验室,让它通过不断尝试来发现规律,当某个推理路径能更好地解决问题时,就给予高分奖励,从而强化这种思考方式。

昆仑万维最新开源的 Skywork R1V 3.0,就是这一探索路径下的产物。它最核心的思路,就是借助强化学习,将在数学等领域学到的严谨推理能力,迁移并泛化到物理、化学、医学乃至更广泛的现实世界问题中,试图让 AI 离那个理想中的 Joi 更近一步。

目前,昆仑万维已全面开源 Skywork R1V 3.0 的所有资源,旨在推动多模态推理社区的进一步发展:

模型权重

技术报告:xxx(待补充)

代码仓库

从 " 偏科生 " 到 " 六边形战士 ",寻找能力的平衡点

如何评价一个 AI 模型的好坏?在今天,只看它在某个单项上跑分有多高,可能已经不够了。更重要的,是看它的能力曲线是否平滑,在面对五花八门的问题时,表现是否足够稳定。

在这方面,R1V 3.0 交出了一份很有意思的答卷。它在一个名为 MMMU 的权威评测上,取得了 76.0 分的成绩 。这个分数距离人类初级专家的平均水平(76.2 分)只有一步之遥 ,同时也超过了一些知名的闭源模型,比如 Claude 3.7 Sonnet 的 75.0 分和 GPT-4.5 的 74.4 分 。

MMMU 之所以重要,是因为它不像传统的单科竞赛,更像一场包含理工、人文、医学、艺术等多个领域的 " 跨学科高考 " 。能在这里拿到高分,背后透露出的信息是,这个模型的能力不偏科,知识结构相对均衡。这或许是让 AI 智能的 " 锯齿 " 变得更平滑、更可靠的一种体现。

当然,均衡不代表平庸。在物理、逻辑和数学等更考验硬核推理能力的评测中,它同样拿下了多个开源模型的最佳成绩 。

硬核理工科,是骡子是马拉出来遛遛

跑分终究是跑分。想知道一个模型是真学霸还是纸老虎,得拉出来实战遛遛。我们直接上题,看看它在不同场景下的真实表现。

在 2025 年高考数学新一卷的测试中,R1V 3.0 取得了 142 分的成绩,达到了开源多模态推理模型的最优结果,其表现已逼近多款业界领先的闭源模型水平:

具体的解题效率上,我们向模型展示了一道高考物理选择题,R1V 3.0 不仅能给出正确答案,而且明显 " 想得更快、更明白 " 了。它的解题思维链比上一代大幅缩短,比如从 4 千降至 7 百 tokens,推理速度提升了约 6 倍。

R1V 3.0

如果说高中题只是开胃菜,那大学的电路分析题就是正餐了。我们给它一道有一定分析深度的英文大学电路理论分析题 ,它能准确识别题目中 "unit ramp"(单位斜坡电压)的含义,严格依据基尔霍夫电压定律列出微分方程,并用积分因子法系统地求解,推导逻辑自洽、过程条理清晰 。这证明了它的推理能力确实有深度。

接下来,我们来看一道具有一定分析深度的英语版的大学电路理论分析题。从中可以看出,即便是这样具有挑战性的大学层次题目,R1V 3.0 依然能够准确给出解答。

Consider applying a unit ramp voltage source to a series RL circuit as shown in . Compute the voltages with zero initial condition for L = 0.1H;

文史医,AI 的 " 知识盲区 " 还是 " 舒适区 "?

跳出数理化,在更广阔的知识领域里又如何?我们向模型提问:" 在下图中,P 波代表 ___________,QRS 段表示 ___________,T 波代表 _____________。"

面对心电图,它能头头是道地讲出 P 波、QRS 段和 T 波各自的生理意义,就像个医学院的学生在做课堂报告 。

而面对一位有 20 年肝硬化病史的患者的 CT 影像,它也能结合病史和影像学特点,推理出 " 肝细胞癌 " 的最可能诊断,并列出其他可能性以供鉴别 。

从冰冷的医学影像,切换到充满温度的人文艺术,它也能 hold 住。它能认出《清明上河图》,并对其艺术风格、历史背景和深远影响进行分析 。

还能通过一个唐代女乐俑的服饰、妆容和姿态,准确判断其所属朝代、社会阶层,并结合 " 墓葬明器 " 的概念分析其文化意义 。

生活大冒险,如何应对 " 非标 " 难题

最后,来看一些更开放、更接近生活的 " 非标 " 问题。比如这个高难度的 " 看图猜地方 " 游戏:我们要求模型根据一张图片里的建筑、植被、标识牌等线索,推断出其所在的大洲、国家、城市乃至经纬度 。R1V 3.0 展现出了极强的综合认知能力,通过层层推理,最终成功锁定了地点 。

还有一个更生活化的问题:" 我买一千瓶这个饮料,中奖的钱的期望是多少?" 。模型需要先通过视觉看懂瓶盖上的中奖规则,再运用数学能力进行概率计算 。

而最考验 " 网感 " 的梗图理解,它也没掉链子。面对一张涉及人物表情和双关语的梗图(Meme)图片,它能准确识别出其中的幽默感,并解释这种幽默来源于对 "models" 一词在技术和日常语境中不同含义的误解 。

通往稳健推理的后训练路径

模型表现这么好,背后用了什么巧妙的技术?Skywork R1V 3.0 的技术路径很有意思,它没有依赖海量数据和算力硬堆,而是把重点放在了模型的后训练阶段,更像一场精细的调优 。

这条路径始于能力的嫁接与强化。团队基于 R1V 2.0 做冷启动,让模型一出生就具备不错的多模态推理基础 。随后引入 GRPO 强化学习算法,对模型进行深度激发,让强大的文本推理能力成功嫁接到多模态任务上 。值得一提的是,这个过程借助 GRPO 强化学习算法,实现高效泛化,仅用了约 1.2 万条高质量监督微调样本和 1.3 万条强化学习样本,就实现了多学科推理能力的显著提升 。

有了初步的能力,如何确保它不是在机械地模仿?为了解决这个问题,团队引入了一套独特的关键熵驱动验证机制。他们发现,真正会推理的模型,在思考的关键节点会表现出较高的不确定性,代表着思维在发散;而只会模仿的模型则非常确定 。这个机制就像一个思考质检员,能高效地识别出哪些模型版本是真正学会了推理,而不是在机械地模仿风格 。

解决了推理的真伪问题,还有一个挑战是知识的均衡。由于强化学习阶段的训练数据以数学问题为主,模型的能力会有些偏科 。为此,团队在强化学习之后,专门引入了一个针对连接器,也就是连接视觉和语言的桥梁,的微调步骤 。这一步有效地平衡了模型的知识结构,让它在保持理科优势的同时,也补上了文史、艺术等领域的短板,成了一个更全面的通才 。

结语

从最开始那个可能看不懂 Meme 的 AI,到最后这个更均衡、更稳健的模型版本,Skywork R1V 3.0 的迭代过程,本身就在试图解决当前 AI 最棘手的几个问题。它证明了,在行业普遍追求更高、更快、更强的同时,通过精细的后训练调优,让 AI 想得更稳、更可靠,是一条同样重要且可行的路。

这背后是对 " 可靠性 " 的追求。尤其在 2025 年,当 AI 开始被更严肃地探讨用于医疗诊断、金融合规等高风险领域时,可靠性已经从一个加分项变成了必选项。未来的 AI 竞争,可能不再只是参数和分数的比拼,更是看谁的系统在关键时刻更值得信赖。一个真正可用的 AI,需要具备某种程度的 " 认知谦逊 ":知道自己的能力边界,并在不确定时,懂得把决策交还给人类。

而昆仑万维选择将 Skywork R1V 3.0 完全开放的做法,本身就体现了这种对可靠性和透明性的追求。实际上,这也不是一次孤立的行动,而是其构建以推理能力为主线的技术体系的一部分,此前他们已陆续开源了 Skywork-OR1 文本推理模型和 SkyReels-V1 视频生成模型等多个项目。这种系统性的开源,以及将技术细节、探索发现都展示给社区的做法,让人们能够更好地检验和理解模型,这恰恰是通往信任的关键一步。

归根结底,技术的发展终究要回归到具体的人和具体的问题上,这可能比宏大的叙事要走得更远。

相关标签
ai

相关阅读

最新评论

没有更多评论了