
作为 Datalab 首款纯粹为提取任务构建的模型,lift 将其此前推出的 chandra、marker 和 surya 等开源 OCR 工具的能力,进一步扩展至基于模式的字段提取领域。
性能表现与基准测试
在 Datalab 包含 225 份文档的基准测试中,lift 实现了 90.2% 的字段准确率。研究团队称其为目前测试过的性能最强的可自托管小型模型,平均每份文档的处理时间中位数为 9.5 秒。
测试集涵盖 6 至 64 页不等的文档,总计约 11,000 个评分字段,并植入了跨页面数值、穷尽列表及干扰项等对抗性案例。数据显示,在字段准确率方面,lift 领先于 NuExtract3 和 Qwen3.5-9B 等可自托管模型,且速度最快。其处理速度比 Gemini Flash 3.5 快约 3 倍,字段准确率与之相近。
然而,在更严苛的 " 全文档准确率 "(即所有字段均正确)指标上,lift 得分为 20.9%,仅高于 NuExtract3,低于托管 API 服务的 44.4% 和 40.0%。这反映了长文档单次传递提取的难度,表明 lift 目前更适合辅助人工审核或聚合分析,而非完全替代 " 零接触 " 自动化流程。
核心机制:模式约束与默认弃权
lift 的核心设计在于模式约束解码(Schema-Constrained Decoding)。模型将用户的 JSON Schema 转换为 Pydantic 模型并规范化,随后在生成过程中,服务器将 Schema 编译为语法树。每一步生成时,破坏 Schema 结构的标记会被屏蔽,确保输出始终是形状正确的合法 JSON。
值得注意的是,约束解码仅保证结构和类型的合法性,不保证语义的正确性。此外,lift 引入了 " 默认弃权 " 机制:对于文档中真正缺失的字段,模型经过训练会返回 null 而非凭空捏造。这一机制旨在减少静默错误,但要求用户在下游对返回的 JSON 进行验证,尤其是当 Schema 包含 enum、anyOf 等不支持构造时,模型可能回退至无约束生成。
部署方案与许可协议
lift 提供两种推理模式:通过 HuggingFace 进行的本地推理,以及通过 vLLM 服务器运行的远程推理(生产环境推荐后者)。代码采用 Apache 2.0 协议,模型权重则使用修改版的 OpenRAIL-M 许可证。
根据许可条款,lift 对研究、个人用途以及融资或收入低于 500 万美元的初创公司免费,但禁止在与 Datalab API 竞争的场景中使用。商业用途需获取额外许可。
快速入门可通过 CLI 实现,支持 Python 3.12 及以上版本。安装包还附带了 Streamlit 应用 Schema Studio,用于构建和测试 Schema。支持的 GPU 包括 H100、A100、L40S、RTX 4090 等主流型号。
【星途科讯 图文丨踢三脚 首发于 ZAKER 科技,转载请注明出处】