关于ZAKER 合作
量子位 15分钟前

十亿级参数,千亿级性能,上海 AI Lab 发布新一代文档解析大模型,复杂场景解析精度媲美人类专家

大模型越来越大,参数量动辄千亿,但真要在实际场景里做到 " 高精度 + 高效率 ",却并不容易。

上海人工智能实验室发布新一代文档解析大模型——MinerU2.5

作为 MinerU 系列最新成果,该模型仅以 1.2B 参数规模,就在 OmniDocBench、olmOCR-bench、Ocean-OCR 等权威评测上,全面超越 Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B 等主流通用大模型,以及 dots.ocr、MonkeyOCR、PP-StructureV3 等专业文档解析工具。

凭借高精度、多模态的文档理解与结构化输出能力,MinerU2.5 尤其适合构建 RAG 知识库与大规模文档提取等实际应用场景。

OmniDocBench 文档解析评测结果

从上图可以看出,MinerU2.5 在整体解析能力及单元素解析能力维度上全面第一。不仅如此,在技术报告中,无论是文本、公式、表格,还是阅读顺序等核心解析任务,MinerU2.5 都展现出卓越的技术性能。

除了在指标上全面领先外,团队还对不同类型文档的解析结果进行了人工评估。

结果显示,MinerU2.5 在解析精度和用户体验上均实现显著提升,在布局检测、表格识别、公式识别、文本识别等关键任务上取得全面突破。

实现高精度与高效率

凭借 1.2B 精巧参数,MinerU2.5 在大规模语料提取等生产力场景中兼顾高精度与高效率,体现出 " 小身材、大能量 " 的独特优势,展现出强大的应用价值

为了保证模型能够轻松处理不同来源、不同难度、包含不同元素的文档,科研团队精心设计了文档解析数据引擎,为模型预训练和微调阶段提供多样性、高质量数据。

针对文档解析的预训练阶段,团队考虑从文档多样性、元素多样性、中英文数量均衡保证预训练数据的多样性,并通过多阶段模型筛选保证数据质量。

在模型微调阶段,团队采用了基于推理一致性的迭代挖掘策略,针对一阶段预训练模型挖掘困难样本,并结合智能化标注及专家修正保证数据足够复杂、精准,有效提升模型在复杂样本上的解析能力。

MinerU2.5 文档解析大模型技术架构

最终模型在复杂排版、复杂公式及复杂表格上性能显著提升,在其他普通样本上的解析精度更是达到了媲美人工标注员的水平。

在解析效率方面,MinerU2.5 采用了 QwenVL2 系列的原生分辨率视觉编码器(675M)及 0.5B 的语言解码器,模型总参数量接近 1.2B。

在布局分析阶段,MinerU2.5 将高分辨率文档图像下采样到 1036*1036 从而实现高效解析。在内容识别阶段,MinerU2.5 仅需将切割的小区域元素进行原生分辨率编码解析,解析速度快、精度高、幻觉少。

配合 vLLM 参数优化及工程优化,MinerU2.5 在消费级显卡 4090(48G)上达到每秒 1.7 页的解析速度,远超其他大模型解析方案,让高质量、低成本的解析成为现实。

出图、表格和公式解析能力得到大幅提升

在出图方面,模型鲁棒性得到增强,可轻松处理各类文档:在论文、数据、考题、课本、研报、财报、PPT 等多样性文档上均表现出精准的解析结果。

此外,表格解析能力也得到了大幅提升:在各种类别的表格上,解析能力优秀,特别是旋转表格、无线表、少线表和复杂表格上,相比于之前进步显著。

在公式解析任务上,模型对各类公式均能输出准确结果。特别地,MinerU2.5 创新性地将复合公式解耦为多个原子公式进行解析,从而显著提升了针对复杂长公式的解析能力。

依托 MinerU2.5 多模态大模型核心能力,MinerU 在线产品功能实现全面升级

本次迭代新增了表格旋转识别、无线或少线表格解析、跨格式文档无损复制以及参考文献识别等功能,并对中文公式、复杂数学公式以及嵌套表格的解析精度进行了优化。

所有新增功能已完整融入 JSON/Markdown 导出、复制、翻译等重要操作,实现开箱即用、流畅无缝的使用体验。

值得一提的是,导出的 JSON 文件保留了页眉、页脚、页码、脚注及侧边文本等全部信息,为开发者提供了更便捷的二次处理条件,同时大幅提升了文档解析的准确性与适用范围。

MinerU 在线版已全部上架 MinerU2.5 最新模型能力

在国产算力生态建设方面,OpenDataLab 团队采取 " 自主可控 + 开放协同 " 双轨策略,持续推动国产化适配与算力优化。通过与 DeepLink 的联合攻关,依托其开放计算体系实现多后端算力的打通,MinerU2.5 得以在国产千卡级平台上稳定高效运行。

同时,MinerU2.5 正在与昇腾、沐曦、摩尔线程、寒武纪、海光等国产平台完成深度适配,相关技术成果将以开源方式共享,为高性能应用场景提供可靠的产业化支撑。

在应用落地方面,MinerU 已率先开发出面向 N8n、扣子、FastGP、BISHENG 等主流 Agent 平台的插件,并为钉钉、Cherry Studio、Sider 等知名 AI 工具提供接入与技术保障。

未来,团队将继续扩展国内外主流平台及开发工具的适配范围,推动技术与重点行业应用深度融合,构建开放、兼容且可持续发展的生态体系。

技术报告:https://arxiv.org/abs/2509.22186

开源项目:https://github.com/opendatalab/MinerU

开源模型:https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B

在线使用:https://mineru.net

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见