大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常 " 翻车 "。
为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。
该方法借鉴人类 " 多角度思考、反复验证 " 的认知方式,打破传统 LLM 的线性推理范式,通过构建多棵并行推理树,引入动态自我修正机制与多视角共识决策策略。
论文将在 7 月份召开的 ICML 2025 大会上发表和开源。
具体而言,在 GSM8K 数据集上,结合 FoT 的 QwQ-32B 模型准确率高达 97.33%,超过了 GPT-4o 和 rStar-Math 等先进模型;在更具挑战性的 AIME 2024 测试中,更是将准确率提升至 53.33%,较对比方法 rStar-Math 高出 6.66%。
尽管 LLM 在语言理解、问答等任务中表现出色,但在数学和逻辑等需要多步严谨推理的场景中,仍然存在明显短板:
常陷入 " 单路径 " 惯性,缺乏反思与尝试其他思路的能力;
中间步骤易出错,且错误难以自我纠正;
无法有效整合多种解法来做集体判断,缺乏 " 共识感知 "。
思维森林 FoT 框架的核心灵感来自人类解决复杂问题的过程:头脑风暴 → 多路径探索 → 错误回溯 → 决策投票。
稀疏激活(Sparse Activation)
在传统的多路径推理中,虽然激活所有可能路径可以提升覆盖率,但也带来了指数级的计算开销。
FoT 引入了稀疏激活策略,其核心思想是在每一层推理过程中,依据节点输出的置信度进行评分,仅保留得分最高的少量节点用于后续扩展。
该机制显著减少了每层的推理分支数量,提升了每棵推理树的逻辑集中度和计算效率。
动态自校正(Dynamic Self-Correction)
FoT 中每棵推理树在成长过程中,具备对自身推理状态的 " 反省 " 与 " 重构 " 能力。
该模块检测推理路径中可能出现的偏差(回答不断重复等)时自动触发自我反思,提高模型在复杂任务(如数学推导、科学多跳问答)中的鲁棒性。
共识引导决策(Consensus-Guided Evaluation and Decision)
FoT 的最终输出不仅依赖于某一条推理路径,而是融合多棵推理树的候选答案,通过集体投票与专家评分机制共同完成决策。具体流程如下:
每棵推理树在独立推理后都会生成一个候选答案。
CGED 首先尝试从中识别出多数一致性结果(如超过半数树提出相同答案)。若存在明确的多数共识,则直接采用该答案作为最终输出。
若不存在明显的一致性(如每棵树的结论差异较大),则系统将调用一个预先训练好的 LLM 专家模型对所有候选答案进行质量评估,从中选择最优解。
该评分模型可基于答案的逻辑连贯性、对问题的契合度、生成路径的可靠性等多维指标综合判断,确保最终输出具备较高的可信度与可解释性。
这一机制有效结合了 " 集体智慧 " 与 " 专家审阅 ",提升了模型在不确定场景下的决策稳定性,特别适用于开放式问答、科学推理与法律场景等对输出可靠性要求较高的任务。
在 GSM8K、MATH 等经典推理任务中,FoT 显示出超越 ToT 的表现:
在24 点游戏任务中,FoT 增加树数即可提升 14% 准确率,明显优于 ToT 通过叶子节点数量扩展的方式。
FOT 是一种面向大语言模型的推理增强框架,通过引入多路径探索、动态自我校正和共识决策机制,提升模型在复杂任务中的推理准确性、容错性和泛化能力。
不仅如此,该方法旨在缓解传统大模型在高阶推理场景中的局限,为结构化、可解释的推理提供支持,具有在金融风控、法律分析、科研辅助、医疗诊断等领域的应用潜力。
论文链接:https://arxiv.org/abs/2412.09078
项目地址:https://github.com/iamhankai/Forest-of-Thought
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见