关于ZAKER 合作
量子位 昨天

首个全自动 AI 科学家诞生!西湖大学最新成果:性能超越人类 SOTA 基线 183.7%

人类科学家三年的工作量,如今 AI 两周就能轻松搞定!

最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的 AI 科学家系统。

对比 DeepScientist 与人类专家的研究进展

在 AI 文本检测任务中,DeepScientist 仅用两周时间就实施和验证了超过 1000 种不同的假设,在此期间取得了相当于人类三年的进展。

在 RAID 数据集测试中,DeepScientist 设计的方法实现了 7.9% 的 AUROC 提升,成功超越了人类现有 SOTA 方案。

另外 DeepScientist 还在智能体失败归因、LLM 推理加速等任务上也分别达成了新的 SOTA。

下面是更多详细内容介绍。

从 " 科研助理 " 到 " 首席科学家 ":AI 科研模式的变革

过去的 AI Scientist 系统,如果不给定一个清晰明了的科研目标,就很容易陷入对现有知识的机械组合与无效试探的窠臼中,最终形成的科研产出在人类专家看来缺乏焦点,科学价值不高。

它们更像是能力超群的科研助理,而不是能独立指引方向的科学家。

DeepScientist的出现改变了这一现状,它不再等待人类告诉它 " 研究什么 ",而是开始主动思考 " 什么值得研究 ",它可以:

主动识别前沿研究的根本性局限,

提出全新的科学构想以解决局限性问题,

自动编写代码、执行实验、设计分析实验,整理实验结果,

撰写结构完整的科研论文,开源可重现代码。

简而言之,这种从 " 随机发现 " 到 " 长期主动式探索 " 的角色转变,标志着 AI 已经正式涉足以往只有顶尖人类心智才能胜任的、最具创造性的科学发现过程。

DeepScientist 的核心机制

DeepScientist 的核心目标是在一个给定的总研究预算内,最大化有价值的科学发现(Progress Findings)。

它首先将混乱、依赖灵感的科学发现过程形式化为一个严谨、目标驱动的分层贝叶斯优化问题,其目标是从所有可能的候选研究空间中,找到一个最优方法,使一个未知且评估成本极高的真实科学价值函数最大化。

DeepScientist 的自主科学发现闭环流程图

具体而言,DeepScientist 基于多智能体协同策略,围绕一个三层级的评估循环推进。

每个层级代表了对一个科研想法(Finding)进行验证的不同保真度(Fidelity)和成本(Cost),系统在每一轮迭代中,都基于其不断增长的 " 经验库(Findings Memory)" 产出新假设和做出资源分配决策。

高层级(即具有高保真度)的信息,其价值是以前一层级(低保真度)的信息为条件的,而一个想法能否在最终的高保真度评估中成功,依赖于它在低保真度实验中的表现。

在每一个层级中,只有展现出价值的科研产物才会被送入下一层级以提供更多资源用来进一步探索,否则被存储到 "Findings Memory" 中用于给后续的探索提供信息。

这种分层方法,确保了计算资源能够被精准地、动态地分配给在当前认知下最具潜力的研究方向,从而在有限的预算内最大化科学发现的效率。

AI 两周完成三年科研进展,全面超越人类专家

为验证 DeepScientist 的研究能力,研究人员将 DeepScientist 应用在三个当前 AI 研究的最前沿领域:智能体失败归因、LLM 推理加速与 AI 文本检测

这些任务无一例外都竞争激烈、备受社区关注,且技术基准极高,其挑战的人类研究成果均为近期在 ICLR、ICML 和 ACL 等顶级会议上发布的最新 SOTA 方法。

三个研究任务选取的 SOTA 方法

其中,在 AI 文本检测任务里,DeepScientist 在无人干预的情况下,仅用两周时间,就自主完成了相当于人类科学家三年的进展。

在此期间,DeepScientist 自主生成了2472 个独特的研究想法,并对其中 600 个具有科学价值的假设进行了代码实现和实验验证。

最终,DeepScientist 在 RAID 数据集上取得了 7.9% 的 AUROC 提升,同时将推理延迟降低了 190%,展示出超越现有人类 SOTA 的卓越性能。

DeepScientist 的突破性进展并不仅限于 AI 文本检测领域,它在多个不同的前沿任务上都展示了超越人类专家的科学发现能力,其中一个典型的例子是在 " 智能体失败归因 " 这一高度复杂的任务上。

DeepScientist 在多任务中超越人工最优方法

面对现有方法难以进行有效因果推理的困境,DeepScientist 自主构想并提出了名为A2P(Abduction-Action-Prediction)的全新方法,其核心创新在于将失败归因从简单的模式识别提升到了结构化的因果推理层面。

最终,该方法在 Who&When 基准测试的 " 算法生成 " 任务中取得了 47.46 分,性能相较于人类专家的 SoTA 基线大幅提升了183.7%

上述成就充分证明了 DeepScientist 不仅能实现单点突破,更能创造出具有持续影响力的科学成果,其泛化能力和系统性创新能力足以在多个前沿领域稳定地推动技术边界。

此外,在自动化科学发现领域,实验的成功率常常不足 1%。这个数字虽然残酷,却真实地反映了科学探索的高度不确定性。

DeepScientist 的研究统计结果

不同于依赖大规模随机试错的方法,DeepScientist 通过形式化的分层贝叶斯优化机制,在 " 利用已有成果 " 与 " 探索未知可能性 " 之间灵活平衡,能够在庞大的假设空间中智能筛选出最具潜力的研究方向。

在探索过程中,DeepScientist 不仅能高效执行大规模实验,还会把成功与失败的结果都视作宝贵经验,用来指导后续的决策。

这种记忆驱动、目标导向的迭代流程,使其能够自主运行数月之久,在浩瀚的可能性空间中持续寻找突破口,不断推动科学发现的进程。

换句话说,如果没有精细化的策略与结构化的反馈机制,这类探索几乎不可能取得成果,而 DeepScientist 的设计恰恰保证了,即便面对极低的成功率,它也能在闭环学习中稳步积累成果,展现出远超暴力搜索系统的持续进化能力与科学发现潜力。

" 科学发现缩放定律 "?用算力驱动创新

在分析实验中,如下图所示,研究团队发现:当并行 GPU 资源从 1 枚扩展到 16 枚时, DeepScientist 每周产出的前沿级科学发现数量从 0 项跃升至 11 项,几乎呈现出理想的线性增长

这意味着,科学突破不再只是依赖少数灵光一现,而是可以像训练大模型一样,通过系统化地增加计算资源来 " 规模化生产 "。

这种趋势正在推动科研范式的转变:从过去依靠 " 人力密集型 " 投入,逐步走向 " 计算密集型 " 驱动,为解决人类面临的重大科学挑战,开辟了一条全新且可加速的路径。

未来展望:开启人机协同的科研新范式

DeepScientist 的成功并不意味着 AI 将取代科学家,而是预示着一个全新的人机协同科研范式的到来。

在这个范式中,人类研究者的角色将从繁重的试错和实验中解放出来,专注于提出真正有价值的科学问题、设定具有前瞻性的研究方向,并进行最终的综合与判断。

而 AI,将作为一台不知疲倦、并行扩展的 " 科学探索引擎 ",在人类智慧的引领下,以前所未有的速度和广度持续探索科学的无人区。

为了推动这一范式的到来,研究团队将开源 DeepScientist 的核心系统与全部实验日志,希望通过开放共享的方式,激发全球科研社区的创新力量,共同加速 AI Scientis 的发展,迎接从基础物理到新药研发等人类重大挑战的突破时刻。

西湖大学自然语言处理实验室期待与更多研究团队携手促进自动化科学发现的进步。

团队现已开放了免费的 DeepScientist 服务申请,希望与科研社区共同建设一个更加高效的科学发现新范式,使其能够真正加速人类科学发现的历程。

同时也欢迎感兴趣的研究者与研究团队联系,加入这场科研新旅程!

西湖大学自然语言处理实验室(WestlakeNLP)成立于 2018 年 9 月,由张岳教授领导。

张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长,著有剑桥大学出版社出版的《自然语言处理》一书,并担任过 EMNLP 2022 等多个顶级 NLP 会议的程序委员会主席。

该实验室目前专注于语言模型推理、泛化和通用人工智能以及自然语言处理的基础与应用研究,探索通用人工智能的实现路径,推动 AI Scientist(AI 科学家)的发展,使其能够真正参与并加速科学发现,促进人类科学的持续进步。

围绕这一愿景,WestlakeNLP 近期也系统地撰写了 AI Scientist 方向的观点文章与综述论文,希望为该领域的发展提供更加全面的思考与参考。

在线网址:

https://ai-researcher.net

开源仓库:

https://github.com/ResearAI/DeepScientist

DeepScientist 申请链接:

https://forms.gle/U9W3jfdGnKpGbScNA

实验室联系方式:

https://westlakenlp.com

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签
ai

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享