只要科学任务可以评分,AI 就能找到超越人类专家的方法,实现 SOTA 结果?
这是谷歌一篇最新论文里的内容:
使用大模型 + 树搜索,让 AI 大海捞针就行。
该系统在生物信息学、流行病学、地理空间分析等领域发明的新方法,都达到了 SOTA 的水平。
让我们一起看看。
实证软件指的是以最大化可定义或可度量的质量指标(通常指对现有观测数据的拟合度)为设计目标的软件。
如果一个任务可以用实证软件解决,就可以被称为可评分任务。
论文表示,他们构建这个系统主要是基于两个原因:
一方面,可评分任务在科学界无处不在。如今几乎每个科学子领域、应用数学和工程领域都依赖软件,其中大部分软件都是解决可量化任务的实证软件。
另一方面,科学实证软件的开发过程缓慢且艰难。特定领域的实证软件需要繁琐的工作,通常需要数年才能完成。
简单地说,该方法基于大语言模型(LLM),通过让 LLM 重写代码来提升软件的质量评分。系统首先生成大量的候选软件解决方案,然后运用树搜索算法筛选值得进一步优化的候选方案。
在实际应用中,用户既可直接注入这些思想,也可通过搜索引擎自动获取文献研究成果。
LLMs 在代码编写过程中会充分利用这些注入的指导信息。
这种超人类性能的实现,源于系统能够在前所未有的规模上、彻底且不知疲倦地进行解决方案搜索,从而发现 " 沧海遗珠 " 式的高质量解决方案。
在生物信息学领域,这个新系统发现了 40 种用于单细胞数据分析的新方法,在公开排行榜上超越了人类专家开发的最顶尖方法。
(这个基准 Y 轴越低越好)
此外,在流行病学、时间序列预测、数值分析领域,新系统都能取得和人类顶级方法相当、甚至超越人类的结果。
总而言之,研究团队开发了一种新方法:把基于树搜索的代码变异系统和整合复杂研究思路的能力相结合。
这些研究思路可以来自已发表的论文、研究智能体,也可以是 LLM 已有思路和方案的组合。
网友评价:这种新方法正在为未来的 AI 创造更好的算法。
有细心的网友发现,在这篇论文里,研究人员使用的提示词和我们也没什么差别:
请创建一个算法,利用两种策略的优点,创建一个真正出色的混合策略,并且得分要高于任何一种单独的策略!!
网友笑评:就像答辩的前一周,简直火烧眉毛了。
[ 1 ] https://x.com/arankomatsuzaki/status/1965253577221587218
[ 2 ] https://x.com/deedydas/status/1965468238483235015
[ 3 ] https://google-research.github.io/score/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见