如今,大模型在理解、推理、编程等方面表现突出,但 AI 的" 科学通用能力 "(SGI)尚无统一标准。
SGI 强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力(如学科问答、单步工具操作),难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型(PIM),将科学探究拆解为四个循环阶段,并与 AI 能力维度对应:

构思 / 创意生成(Conception):提出新假说与可执行研究方法;
行动 / 实验执行(Action):将想法转化为计算代码(干实验)与实验室流程(湿实验);
感知 / 结果解读(Perception):整合多模态证据并进行因果、比较等分析推理。
团队将上述四维能力的综合定义为 SGI,并发布覆盖全流程的 SGI Bench。首轮结果:闭源模型 Gemini 3 Pro 以 SGI Score 33.83/100 取得 SOTA,但距离 " 会做研究 " 的门槛仍显著不足。

SGI Bench 采用" 科学家对齐(scientist-aligned)"的任务构造:
多学科专家提供原始语料(研究方向、图文材料等)与少量种子问题(seed questions);
招募超过 100 位研究生 / 博士生根据输入输出结构与种子问题,结合真实科研流程,进行题目构建;
经规则校验、模型校验、专家复核三重清洗;最终再以多模型难度筛选剔除简单样本。
最终得到 1000 多个覆盖 10 大学科(化学、生命、物理、数学等)的评测样本。


科学深度研究(Scientific Deep Research)步骤准确率高于严格匹配,长链路 " 结论崩塌 "
任务模拟文献元分析与多跳检索,要求在明确约束下检索并整合跨来源证据、进行定量推理,输出可核验结论。




2. 构思 / 创意生成 Conception
创意生成(Idea Generation)新颖度尚可,但可行性偏低
面向整体思路和具体方案,考察将灵感转化为可执行蓝图的能力(包含创新点、方法步骤,数据,指标等)。


开源可行性上限约 20 分(如 Qwen3 Max 20.98),多数模型 14 – 20 分,显示 " 能说清 " 与 " 能落地 " 之间的落差。
常见缺陷:缺少数据获取与预处理计划;流程接口不闭合(输入输出不对齐);步骤顺序与依赖模糊,导致 " 创意→蓝图→执行 " 闭环断裂。
3. 行动 / 实验执行 Action:干实验(Dry Experiment)
可运行≠科学正确
根据科学背景,将缺失函数补全到主代码中,检验科学代码合成、数值稳健性与算法精确性,强调严格正确与可执行。


闭源模型略优于开源,但优势有限且分布重叠," 科学代码合成 " 仍是各架构共同短板。

类型上,数据处理 / 预测建模较稳;数值计算与仿真最弱,受离散化、稳定性与约束处理影响。例:引力波体积估计中,前向累加(np.cumsum)与自适应积分(scipy.integrate.quad)差异巨大;前者累积误差经 χ ( z ) 影响 dV/dz,最终体积严重偏离。

动作时序、分支与参数选择是硬伤
基于实验背景与原子动作池,生成带参数的原子动作序列,以检验流程规划、顺序依赖与复杂约束的正确处理。


高发错误:插入多余步骤、遗漏关键步骤、打乱有效步骤顺序。
在 NSCLC 抗 PD 1 流程中,常见错误包括:将纵向采样简化为一次采血;PBMC 只在单一时间点分离;功能测定未按时间 / 刺激分组;基因组测序与免疫表型流程混用样本等,反映时间协调、分支规划与样本管理薄弱。

多模态实验推理(Experimental Reasoning)因果推理尚可,比较推理最难
综合解读多模态证据(图像、流程、可视化等),识别跨模态线索、建模变量关系,进行比较与因果判断,输出可读推理与准确答案。



多数模型推理有效性高于答案准确率:难以实现推理链条的完全正确。
推理类型上,因果推断与感知识别较稳;比较型最弱,涉及跨样本细粒度对比与一致性判别。学科上,天文最佳,物理、生命等学科挑战较大。

传统评测框架大都基于固定的评测脚本,对于普通用户的上手难度高且难以根据需求差异进行定制化评测。团队面向 " 可定制评测与报告生成 " 设计 SGIEvalAgent,它由 4 部分构成:
任务精选智能体:结合用户需求,按学科、任务类型、样本规模等选择评测题目。
指标定制智能体:根据用户需求自定义评测指标。
评测执行智能体:运行评测并得到分数。
报告生成智能体:综合用户输入与评测结果,撰写评测报告。


SGI Bench 的结果为 AI 自主科研指明方向:
深度研究:强化证据聚合与数值鲁棒性,提升深层研究准确性。
创意生成:引入规划感知与结构化监督,保障创意可行与执行细节完备。
代码生成:训练需超越语法,聚焦数值分析先验与算法稳定性。
湿实验协议:结合状态模拟,重点解决时序逻辑与复杂分支。
多模态推理:通过细粒度视觉定位与对比训练,提升比较推理精度。
论文:https://arxiv.org/pdf/2512.16969
主页:https://InternScience.github.io/SGI-Page/
代码:https://github.com/InternScience/SGI-Bench
数据:https://huggingface.co/collections/InternScience/sgi-bench
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

科技前沿进展每日见