关于ZAKER 合作
量子位 1小时前

打破数据质量鸿沟!清华腾讯 Bee 项目发布 1500 万高质量数据集,刷新 MLLM 全栈开源 SOTA

全开源多模态大模型(MLLM)的性能,长期被闭源和半开源模型 " 卡脖子 "。

原来核心瓶颈不在模型结构,而在于 " 数据质量鸿沟 "。

为了解决这一痛点,清华大学与腾讯混元团队联手推出了Bee项目。Bee 不只是一个模型,它是一套全栈式、完全开放的解决方案 ,旨在从根本上拉近开源社区与顶尖模型之间的差距。

Bee 项目的三大核心贡献:

Honey-Data-15M:一个 1500 万规模、经过多重精细清洗和创新的双层 CoT(思维链)扩充的高质量 SFT 数据集。

HoneyPipe & DataStudio:开源了从数据清洗到 CoT 增强的 " 全栈数据增强管线 ",提供了一套透明、可复现的方法论。

Bee-8B:基于 Honey-Data-15M 训练的全新 8B 模型,在多项基准上刷新了全开源 MLLM 的 SOTA 纪录,性能匹敌甚至超越了主流半开源模型。

下面详细来看。

背景与动机:打破 " 三层结构 " 的数据壁垒

当前的 MLLM 领域呈现出明显的三层结构: ( 1 ) 顶尖的闭源模型(如 Gemini 2.5、GPT-5), ( 2 ) 权重开放但数据私有的半开源模型(如 Qwen2.5-VL、InternVL),以及 ( 3 ) 性能远远落后的全开源模型。

如上图所示(分数为 MMMU、Mathvista 等五个数据集平均的结果),在 Bee 项目之前,全开源(Fully Open)模型在性能上与闭源(Closed Source)和半开源(Semi-Open)模型存在巨大鸿沟。

Bee 团队认为,这种差距的根源在于SFT 阶段的数据质量

现有开源数据集普遍存在两大顽疾:

普遍的噪声:充斥着事实错误、图文不匹配、格式混乱和低质量图像。

复杂推理数据匮乏:极度缺乏高级能力(如长链条思维链 CoT)所需的数据。

因此,Bee 项目明确指出,全开源社区最可行的路径不是盲目追求数据 " 数量 ",而是聚焦于 " 数据质量 "

HoneyPipe:授人以渔的全栈数据增强管线

为了系统性地解决上述数据问题,团队构建了HoneyPipe,一个基于 DataStudio 框架的、自动化的数据增强流程。

HoneyPipe 的核心价值在于其透明可复现的三阶段增强过程

噪声与无关性过滤 ( Stage 1 ) :结合规则过滤(如剔除小尺寸 / 极端宽高比图像 )和模型过滤(使用 Qwen2.5-VL-72B 等强模型 ),确保图文的语义一致性(例如,过滤掉 " 在只有橘子的图像上提问函数问题 " 的样本 )。

短 CoT 增强与验证 ( Stage 2 ) :此阶段是双层 CoT 策略的基础层。使用 Qwen2.5-VL 等模型将原始的简短回答,扩充为包含明确步骤的 " 短 CoT" 响应。随后,引入 "LLM-as-a-Judge" 进行保真度验证,检查新 CoT 的最终结论是否与原始答案一致(事实性问题需精确匹配,开放性问题需语义一致 )。

长 CoT 增强循环 ( Stage 3 ) :对于 ( 1 ) 在上一阶段保真度验证失败的样本(通常意味着问题更复杂),或 ( 2 ) 天生复杂的数据源(如 VisualWebInstruct),将它们路由到此循环。团队使用顶尖的专有 MLLM 来生成深度、多步骤的 " 长 CoT" 解题过程。

这一套 " 过滤 - 循环增强 - 验证 " 的精细流程,最终产出了高质量的数据集。

Honey-Data-15M:双层 CoT 赋能的高质量基石

HoneyPipe 流程的最终产物是Honey-Data-15M,一个包含 1500 万精心策划样本的大型多模态 SFT 数据集。

该数据集的核心特征是其双层 CoT 推理结构

约 1220 万 短 CoT 样本:用于培养模型扎实的基础逻辑和分步推理能力。

约 270 万 长 CoT 样本:专为复杂问题设计,要求模型进行更深层次的综合分析和推理。

如上图所示,数据集的来源多样化,策略性地覆盖了 7 大领域,确保了模型的全面发展:

Bee-8B:全开源 MLLM 的新标杆

为了验证 Honey-Data-15M 的卓越效果,团队开发了 Bee-8B 模型。

模型架构:

LLM 基础:Qwen3-8B

视觉编码器:SigLIP2-so400m-patch14-384

投影器:一个简单的两层 MLP

五阶段训练配方 ( Recipe ) :

MLP 预热 ( Stage 1 ) :仅训练投影器,冻结 LLM 和视觉编码器,使用 1M 图像 - 字幕对。

视觉 - 语言对齐 ( Stage 2 ) :全参数训练,混合 12.6M 图文对和 1.43M 纯文本数据,以保留 LLM 的固有能力。

多模态 SFT ( Stage 3 ) :关键阶段。在完整的 Honey-Data-15M 上进行训练,全面注入双层 CoT 所带来的复杂推理能力。

高效精炼 SFT ( Stage 4 ) :在精心挑选的 1M 高质量子集 ( Honey-Data-1M ) 上进行精调,该子集具有更合理的主题分布。

策略优化 RL ( Stage 5 ) :使用 GRPO 算法 ,在 50K 数据上进行 RL 训练 ,以解决 SFT 阶段常见的文本重复等问题,提升输出可靠性。

Bee-8B 的表现在全开源模型中全面领先,并在多个关键基准上匹敌或超越了 Qwen2.5-VL-7B 和 InternVL3.5-8B 等强大的半开源模型。

其最显著的优势完美印证了 CoT 数据的有效性:

数学与推理任务 ( Math & Reasoning ) :

在 MathVerse 基准上,Bee-8B-RL 达到 67.0 分,显著超越 InternVL3.5-8B ( 61.5 分 ) 。

在 LogicVista 上,Bee-8B-RL 以 61.3 分登顶 。

在 DynaMath 上,Bee-8B-SFT 以 41.3 分夺魁 。

图表与文档任务 ( Table & Chart & OCR ) :

在最具挑战性的 CharXiv-RQ(图表推理)上,Bee-8B-RL 获得 57.3 分,以近 12% 的优势超越所有对手(第二名 45.4 分) 。

通用 VQA 任务 ( General VQA ) :

Bee-8B-RL 在 MMStar ( 71.4 ) , MMMU-Pro ( 50.7 ) , MMVet ( 83.9 ) , 和 CountBench ( 93.0 ) 等多个综合基准上均取得了优秀的 SOTA 分数 。

Bee 项目的工作直面并解决了阻碍全开源 MLLM 发展的核心数据质量问题。它有力地证明了一个核心论点:通过透明、可复现的方法论优先保证数据质量,是比盲目堆砌数据量更有效的策略。

Bee 向社区提供的全栈式开源套件,包括 Honey-Data-15M 数据集(已开源)、HoneyPipe 策管方法论(即将开源)、以及 SOTA 的 Bee-8B 模型,希望为开源社区提供一个全新的、高质量的基石。

论文地址:https://arxiv.org/abs/2510.13795

项目主页:https://open-bee.github.io

数据集地址:https://huggingface.co/datasets/Open-Bee/Honey-Data-15M

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注 了解详情

点亮星标

科技前沿进展每日见

相关标签

最新评论

没有更多评论了