APP下载

关于ZAKER

合作

量子位 22小时前

华为多路径推理破解大模型数学瓶颈，准确率超 97%

大模型越来越大，通用能力越来越强，但一遇到数学、科学、逻辑这类复杂问题，还是常 " 翻车 "。

为破解这一痛点，华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林（Forest-of-Thought，FoT）。

该方法借鉴人类 " 多角度思考、反复验证 " 的认知方式，打破传统 LLM 的线性推理范式，通过构建多棵并行推理树，引入动态自我修正机制与多视角共识决策策略。

论文将在 7 月份召开的 ICML 2025 大会上发表和开源。

在此基础上，FoT 在多个数学推理任务中表现突出，进一步展现了 FoT 相较于 ToT（Tree-of-Thought）更优的推理能力。

具体而言，在 GSM8K 数据集上，结合 FoT 的 QwQ-32B 模型准确率高达 97.33%，超过了 GPT-4o 和 rStar-Math 等先进模型；在更具挑战性的 AIME 2024 测试中，更是将准确率提升至 53.33%，较对比方法 rStar-Math 高出 6.66%。

思维森林：让大模型像人一样 " 思维分叉 + 自我反省 "

尽管 LLM 在语言理解、问答等任务中表现出色，但在数学和逻辑等需要多步严谨推理的场景中，仍然存在明显短板：

常陷入 " 单路径 " 惯性，缺乏反思与尝试其他思路的能力；

中间步骤易出错，且错误难以自我纠正；

无法有效整合多种解法来做集体判断，缺乏 " 共识感知 "。

思维森林 FoT 框架的核心灵感来自人类解决复杂问题的过程：头脑风暴 → 多路径探索 → 错误回溯 → 决策投票。

FoT 模型在推理时并行构建多棵推理树，每棵树探索一种潜在思路，并引入三个关键机制：

稀疏激活（Sparse Activation）

在传统的多路径推理中，虽然激活所有可能路径可以提升覆盖率，但也带来了指数级的计算开销。

FoT 引入了稀疏激活策略，其核心思想是在每一层推理过程中，依据节点输出的置信度进行评分，仅保留得分最高的少量节点用于后续扩展。

该机制显著减少了每层的推理分支数量，提升了每棵推理树的逻辑集中度和计算效率。

动态自校正（Dynamic Self-Correction）

FoT 中每棵推理树在成长过程中，具备对自身推理状态的 " 反省 " 与 " 重构 " 能力。

该模块检测推理路径中可能出现的偏差（回答不断重复等）时自动触发自我反思，提高模型在复杂任务（如数学推导、科学多跳问答）中的鲁棒性。

共识引导决策（Consensus-Guided Evaluation and Decision）

FoT 的最终输出不仅依赖于某一条推理路径，而是融合多棵推理树的候选答案，通过集体投票与专家评分机制共同完成决策。具体流程如下：

每棵推理树在独立推理后都会生成一个候选答案。

CGED 首先尝试从中识别出多数一致性结果（如超过半数树提出相同答案）。若存在明确的多数共识，则直接采用该答案作为最终输出。

若不存在明显的一致性（如每棵树的结论差异较大），则系统将调用一个预先训练好的 LLM 专家模型对所有候选答案进行质量评估，从中选择最优解。

该评分模型可基于答案的逻辑连贯性、对问题的契合度、生成路径的可靠性等多维指标综合判断，确保最终输出具备较高的可信度与可解释性。

这一机制有效结合了 " 集体智慧 " 与 " 专家审阅 "，提升了模型在不确定场景下的决策稳定性，特别适用于开放式问答、科学推理与法律场景等对输出可靠性要求较高的任务。

实验亮点：比思维树更强、更稳、更聪明

在 GSM8K、MATH 等经典推理任务中，FoT 显示出超越 ToT 的表现：

在24 点游戏任务中，FoT 增加树数即可提升 14% 准确率，明显优于 ToT 通过叶子节点数量扩展的方式。

在GSM8K 数学问答上，FoT 与 LLaMA3、Mistral、GLM 等多个主流开源模型兼容，树数越多，性能提升越明显，呈现全新的推理 scaling law 曲线。

在MATH 数据集全等级上，FoT 推理准确率稳定提升，即使面对最复杂的问题也能保持优势。

总结：从更聪明，到更可信

FOT 是一种面向大语言模型的推理增强框架，通过引入多路径探索、动态自我校正和共识决策机制，提升模型在复杂任务中的推理准确性、容错性和泛化能力。

不仅如此，该方法旨在缓解传统大模型在高阶推理场景中的局限，为结构化、可解释的推理提供支持，具有在金融风控、法律分析、科研辅助、医疗诊断等领域的应用潜力。

论文链接：https://arxiv.org/abs/2412.09078

项目地址：https://github.com/iamhankai/Forest-of-Thought

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

国补5945.15元！微星Claw 8掌机锐龙版开卖：首次采用AMD

快科技 4小时前

苹果Mac全家桶下半年登场：首发M5芯片

数码测评 5小时前

5月中国智能平板线上销量达140.4万台苹果、华为前二

数码测评 5小时前

iPhone中国销量2年来首次增长

财联社 5小时前

AMD RX 9070 GRE销售范围扩大：将在香港上市

快科技 5小时前

苹果被甩开！Q2中国手机市场：华为遥遥领先坐稳第一 iPhone销量两年来首次增长

快科技 6小时前

飞秒级“定格”电子运动！我科学家研发新型超快电子源

快科技 7小时前

曝iPhone 17 Pro Max电池将达到5000mAh：苹果史上最大

快科技 8小时前

金融业初试智能体：让AI长出“脑、眼、四肢”

21世纪经济报道 8小时前

荣耀Magic V5 上手：轻薄史无前例，但体验有所妥协

雷科技 37分钟前

269元！小米手环10体验：定位精度一般，但性价比还可以

雷科技 38分钟前

微星绝影18 AI+锐龙版 2025体验：当"不可能"变成触手可及的日常

太平洋科技 1小时前

四川杉杉入选先进级智能工厂，智能化改造后生产效率提升超40%

时代财经 4小时前

被曝全面停工停产，工资只发到6月，罗马仕深夜发声：没倒闭；格力高管放话：世界最好的空调一定是格力；传字节两年半造出千台机器人

雷峰网 5小时前

量子位

觉得文章不错，微信扫描分享好友

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅