关于ZAKER 合作
量子位 30分钟前

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

AI 读不懂 HTML、Markdown 长文档的标题和结构,找信息总踩坑?

解决方案来了——

SEAL全新对比学习框架通过带结构感知+元素对齐,让模型更懂长文。

该方法创新性地将文档的宏观层级结构微观元素语义同时融入到统一的 Embedding 空间中,显著增强了预训练语言模型对结构化数据的理解和表示能力。

在 BGE-M3 模型上将 MRR@10(信息检索能力评估集)指标从 73.96% 提升到 77.84%,并在真实的线上 A/B 测试中验证了其有效性。

团队不仅提升了长文档检索准确率,还开源了万级字数长文档数据集。

下面具体来看。

结构化长文档检索中的常见挑战

在日常工作和学习中,我们常常需要从篇幅浩繁的文档中寻找特定信息,例如技术手册、法律文书或研究报告。面对这些结构复杂的长文本,即便是先进的 Embedding 模型,也可能在信息检索时表现不佳。

一个关键原因是,现有方法在处理结构化长文档时,大多将其视为一长串无差别的纯文本,忽略了标题、段落、列表等固有的结构信息。

这种对文档层次脉络的 " 视而不见 ",可以称之为结构性失明(Structural Blindness),它限制了 Embedding 模型对文档深层语义的理解能力。

针对这一挑战,团队提出了名为SEAL ( Structure and Element Aware Learning ) 的对比学习框架,尝试让 Embedding 模型更好地理解和利用文档的结构信息。

核心解读:SEAL 框架的设计思路

该研究旨在解决长文档检索中的两个具体问题:

一是如何让模型感知文档的层次结构;

二是如何促进用户查询与文档内部具体元素之间的精准对齐。

SEAL 框架为此设计了两种相辅相成的训练策略。可以将其理解为对 Embedding 模型进行的两项专门 " 辅导 "。

结构感知学习(SAL)

尝试理解文档的 " 骨架 "

传统的 Embedding 模型在读取 HTML 等格式的文档时,往往会剥离等结构标签。SAL 的核心思路则有所不同。

它在训练时会向模型同时展示一份文档的两个版本:一个保留了结构标签,另一个则去除了标签。

通过对比学习的任务,模型被鼓励去发现,即使没有明确的标签,某些文本片段(如标题)的内容和位置也蕴含着其结构功能。通过这种方式,模型能够逐步学习到文档的内在 " 骨架 ",区分不同部分的逻辑功能。

元素感知对齐(EAL)

关注局部元素的语义角色

为了进一步提升模型对细节的把握,EAL 策略引入了一种基于元素(如一个标题或一个段落)的 Mask 机制。在训练中会按照固定比例随机 Mask 文档中的一小部分元素,然后要求模型判断这份信息不完整的文档是否与给定的 Query 相关。

为了完成任务,模型必须更依赖文本内容本身以及周围未被遮盖的元素来推断文档的整体相关性。这个过程促使模型更深入地理解每个文本片段的语义角色及其在上下文中的作用。

实验结果表明,这两种训练策略的结合能够带来积极效果。

在 BGE-M3 模型上的测试显示,应用 SEAL 框架后,衡量检索排序质量的关键指标 MRR@10 从 73.96% 提升至 77.84%。

这一数据表明,模型在将更相关的结果排在靠前位置的能力上有所增强。同时,线上 A/B 测试的结果也初步显示了该方法在实际应用场景中的积极影响。

开源万词级文档数据集

同时,该团队还发布了一个名为StructDocRetrieval的新数据集,其中包含带有结构标注的万词级别长文档。

该数据集的文档词数远超 MS MARCO 等典型短数据集(MS MARCO 大多文档不到 700 字,最长 1670 字 ),填补了该领域的数据空白。

并且,它利用 HTML 格式来表示文档,包含了丰富的结构语义标注。

StructDocRetrieval 的一个数据样例

这个资源的公开,为社区评估和开发面向长文档的检索模型提供了一个新的 Benchmark。

总的来说,通过 SEAL 方法这种对结构信息的精细理解,不仅能为 RAG 等下游任务提供更可靠信息来源(如助力 AI 助手精准定位技术文档答案),也在企业知识库、法律科技等专业领域展现出广阔应用前景。

感兴趣的朋友可以到原文查看更多内容~

论文地址:https://arxiv.org/abs/2508.20778

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签

最新评论

没有更多评论了