arXiv：当大模型面对自指悖论——大语言模型中的矩阵层级动力学

导语

当大语言模型遇到 " 这句话是假的 " 时，其内部的推理机制，将如何处理这类自我指称带来的悖论？近日 arXiv 的一项研究，提出一项基于推理过程动力学的指标，发现具有非闭合真值递归（Non-Closing Truth Recursion, NCTR）的提示词，会让模型推理时无法进行可靠地自省式推理。

关键词：自指悖论、大模型、动力学、递归、可解释性

郭瑞东丨作者

赵思怡丨审校

论文题目：When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models

论文链接：https://arxiv.org/pdf/2604.12128

发表日期：2026 年 4 月 13 日

发表期刊：arXiv

预非闭合真值递归：

哪些问题会让大模型陷入 " 真值循环 "？

" 这句话是假的。"

这个经典的说谎者悖论之所以令人困惑，在于它形成了一个无法终止的真值循环：如果这句话是真的，那么它所表达的内容就应该为假；如果它是假的，那么它又似乎是真的。

当大语言模型面对这样的输入时，其内部计算过程会发生什么？是否也会像人类一样陷入循环判断，甚至在内部表征中产生彼此冲突的状态？

为了回答这一问题，研究者提出了一类被称为非闭合真值递归（Non-Closing Truth Recursion，NCTR）的输入结构，这类输入包括经典悖论、哥德尔式不可判定命题、相互循环引用、无限倒退等情形，其共同特点在于：真值判定无法在有限步骤内完成闭合。

举例来说，当大模型面对：" 下一句话是真的。再下一句话是假的。" 这样的提示时，即使只有两层的互指结构，已经足以让真值判定陷入循环。与人类可以选择暂停思考、承认无法判断不同，大模型的 Transformer 架构有固定的层数，它必须在有限深度内完成计算并给出输出。因此，当输入涉及无法闭合的递归结构时，模型内部可能出现不同于常规推理任务的动力学行为。

从有效秩到全局弥散：

悖论如何改变模型内部动力学？

为刻画这种变化，研究人员引入了注意力矩阵的有效秩（attention effective rank）。这是一个基于熵定义的矩阵维度，反映注意力输出矩阵在多大程度上 " 铺开 " 在高维空间中，而非坍缩到少数几个方向上。正常的模型计算中，随着层数加深，有效秩会逐渐下降，对应信息经过层层处理和压缩，逐渐集中到低维子空间，但在当面对 NCTR 类的提示词时，大模型每一层 transformer 的有效秩都会上升（图 1）。

图 1：不同大模型面对不同类型的输入时，有效秩的改变情况，红色箱体代表包含悖论的命题相比陈述性命题（蓝色）的有效秩增加

值得注意的是，研究还引入了一类有效自指（Valid Self-Reference）作为对照（图 1 中绿色箱体），例如 "This sentence has exactly eight words in it." 这样能够在有限次内进行判断的输入，结果发现两者的差距也很明显。这说明自指本身并非会导致大模型推理异常，真正的异常源自那些永远无法封闭真值判定的递归结构。

文中比较了 4 个不同的大模型、这些模型采取了 3 种不同架构，均能稳定复现有效秩面对 NCTR 上升的现象。不过模型架构的设计细节，例如 QK 归一化是否存在、网络深度如何、注意力模式是局部全局交错还是标准会显著影响有效秩上升的幅度。

相比之下，参数规模与这种现象并不存在简单对应关系。研究发现，一个 90 亿参数模型在面对悖论输入时产生的有效秩提升幅度，甚至超过了部分 110 亿参数模型。这意味着更大的参数量并不必然带来更强的递归鲁棒性。

从直观上看，有效秩升高意味着模型的注意力表示不再集中于少数主要方向，而呈现出更加分散的全局弥散（global diffusion）状态。这与人们对于 " 模型陷入悖论后变得犹豫和不确定 " 的直觉相吻合。

更重要的是，这种变化并非局限于个别层。研究发现，有效秩升高的趋势贯穿多个分析层级（图 2），表明 NCTR 带来的影响更像是一种跨层传播的系统性动力学改变，而非某个局部模块的单点失效。

图 2：不同模型在不同层之间的有效秩改变

从异常动力学到模型自省：

理解大模型推理边界的新窗口

除了揭示 NCTR 的内部机制之外，这项研究最重要的贡献在于提出了注意力有效秩这一可量化指标，可用来判断大模型在推理时是否因悖论导致推理困难。实验表明，当模型处理 NCTR 类输入时，有效秩会出现持续升高的趋势，并与模型产生矛盾回答、不确定输出等现象相对应。

这意味着，相比仅关注最终生成结果，研究人员或许能够通过模型内部的动力学信号，更早发现推理过程中出现的异常状态。未来，如果能够建立更加可靠的判据，这类指标有望帮助模型识别自身是否正陷入无法闭合的推理循环，并在适当情况下主动给出 " 无法判定 " 或 " 不足以判断 " 的回答，而非继续生成表面连贯却缺乏逻辑支撑的内容。

从更广泛的角度来看，这项工作也为 AI 安全与可靠性研究提供了新的观察视角。目前关于模型鲁棒性、幻觉以及对齐问题的研究，大多聚焦于输出结果是否正确。然而本研究显示，一些特殊输入可能在模型内部引发跨层传播的系统性状态变化，而这些变化未必能够从最终输出中直接观察到。相比 " 模型说了什么 "，研究其 " 如何计算 " 或许同样重要。

这一发现也对大模型可解释性研究提出了新的启发。传统方法往往关注单个神经元、特定注意力头或局部电路的功能，希望通过定位关键组件解释模型行为。但 NCTR 现象表明，某些异常状态更像是一种网络范围内的集体动力学行为，其影响会在多个层级间传播和累积，而非源于某个单独模块的失效。

换言之，大模型中的部分认知现象，可能并不存在明确的 " 责任神经元 " 或 " 错误注意力头 "，而是由分布在整个网络中的协同计算过程共同产生。这也意味着，理解模型的复杂行为，或许需要从局部组件分析进一步走向整体动力学分析。

更进一步看，类似有效秩这样的内部状态指标，还可能成为未来构建模型自我监测机制的重要基础。如果模型能够持续追踪自身计算过程是否趋于稳定、是否陷入递归循环或产生持续冲突的表征状态，那么其推理过程将不仅包含 " 生成答案 "，还可能具备一定程度的 " 监测自身推理状态 " 的能力。

当然，这一方向目前仍处于探索阶段。有效秩尚不能直接等同于模型的 " 元认知 " 或 " 自我觉察 "，但这项研究至少提供了一个值得关注的线索：在某些情况下，大模型的内部动力学变化或许能够成为理解其推理边界、自省能力以及可靠性的关键窗口。

从这个意义上说，弄清模型为何会在自指悖论和非闭合递归面前表现出异常动力学，不仅有助于理解当前大模型的局限，也可能为构建更加可靠、能够识别自身认知边界的下一代语言模型提供理论基础。

大模型 2.0 读书会

o1 模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind 研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型 II：融合学习与推理的大模型新范式」读书会，本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索 o1 具体实现的技术路径，帮助我们更好的理解机器推理和人工智能的本质。读书会已完结，现在报名可加入社群并解锁回放视频权限。