APP下载

关于ZAKER

Skills 合作

星途科讯刚刚

Datalab 推 90 亿参数开源模型 lift，PDF 提取准确率达 90%

Datalab 正式发布 lift，一款拥有 90 亿参数的开源权重视觉模型，专攻结构化数据提取。该模型允许用户通过提供 JSON Schema，直接从 PDF 和图像中读取信息，并返回符合该模式的 JSON 对象。

作为 Datalab 首款纯粹为提取任务构建的模型，lift 将其此前推出的 chandra、marker 和 surya 等开源 OCR 工具的能力，进一步扩展至基于模式的字段提取领域。

性能表现与基准测试

在 Datalab 包含 225 份文档的基准测试中，lift 实现了 90.2% 的字段准确率。研究团队称其为目前测试过的性能最强的可自托管小型模型，平均每份文档的处理时间中位数为 9.5 秒。

测试集涵盖 6 至 64 页不等的文档，总计约 11,000 个评分字段，并植入了跨页面数值、穷尽列表及干扰项等对抗性案例。数据显示，在字段准确率方面，lift 领先于 NuExtract3 和 Qwen3.5-9B 等可自托管模型，且速度最快。其处理速度比 Gemini Flash 3.5 快约 3 倍，字段准确率与之相近。

然而，在更严苛的 " 全文档准确率 "（即所有字段均正确）指标上，lift 得分为 20.9%，仅高于 NuExtract3，低于托管 API 服务的 44.4% 和 40.0%。这反映了长文档单次传递提取的难度，表明 lift 目前更适合辅助人工审核或聚合分析，而非完全替代 " 零接触 " 自动化流程。

核心机制：模式约束与默认弃权

lift 的核心设计在于模式约束解码（Schema-Constrained Decoding）。模型将用户的 JSON Schema 转换为 Pydantic 模型并规范化，随后在生成过程中，服务器将 Schema 编译为语法树。每一步生成时，破坏 Schema 结构的标记会被屏蔽，确保输出始终是形状正确的合法 JSON。

值得注意的是，约束解码仅保证结构和类型的合法性，不保证语义的正确性。此外，lift 引入了 " 默认弃权 " 机制：对于文档中真正缺失的字段，模型经过训练会返回 null 而非凭空捏造。这一机制旨在减少静默错误，但要求用户在下游对返回的 JSON 进行验证，尤其是当 Schema 包含 enum、anyOf 等不支持构造时，模型可能回退至无约束生成。

部署方案与许可协议

lift 提供两种推理模式：通过 HuggingFace 进行的本地推理，以及通过 vLLM 服务器运行的远程推理（生产环境推荐后者）。代码采用 Apache 2.0 协议，模型权重则使用修改版的 OpenRAIL-M 许可证。

根据许可条款，lift 对研究、个人用途以及融资或收入低于 500 万美元的初创公司免费，但禁止在与 Datalab API 竞争的场景中使用。商业用途需获取额外许可。

快速入门可通过 CLI 实现，支持 Python 3.12 及以上版本。安装包还附带了 Streamlit 应用 Schema Studio，用于构建和测试 Schema。支持的 GPU 包括 H100、A100、L40S、RTX 4090 等主流型号。

【星途科讯图文丨踢三脚首发于 ZAKER 科技，转载请注明出处】

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

Datalab 推 90 亿参数开源模型 lift，PDF 提取准确率达 90%

宙世代

一起剪

相关阅读

美股收盘：美光科技、闪迪重挫13%，特斯拉跌超5%，英伟达跌4%，希捷科技跌超5%，英特尔跌6%

重整旗鼓！韩股大幅反弹 传三星将宣布回购90万亿韩元股票

格力电器目标价涨幅超45%，捷邦科技评级被调低

第12批药品集采开闸，生物医药ETF天弘（159859）标的指数涨超2%，近20日“吸金”累超5.2亿元

标的指数回调获资金逆势布局，这只增强ETF近三年超额收益45.68%全市场第一

​华泰证券：海外高成本支撑 远期铝价不宜悲观

财联社6月24日早间新闻精选

扩产、增效步履不停，多家公司上半年业绩预喜

摩根资管多位基金经理亮相：外资视角详解下半年配置思路

北交所公司迎来密集调研，机构掘金“专精特新”标的

财政收入修复为后续发力留足“弹药”

65个品种入围 第12批集采规则迭代升级

民企操盘、门票收费权质押 清明上河园IPO背后的现金流考题

科技赛道行情带火指数理财 有产品年化收益率逼近140%

效率提升超90% AI为广东招投标“换挡提速”

最新评论

星途科讯

热门推荐

企业资讯

重整旗鼓！韩股大幅反弹传三星将宣布回购90万亿韩元股票

华泰证券：海外高成本支撑远期铝价不宜悲观

65个品种入围第12批集采规则迭代升级

民企操盘、门票收费权质押清明上河园IPO背后的现金流考题

科技赛道行情带火指数理财有产品年化收益率逼近140%