不是拼凑知识点,AI 这次是真搞研究。
一个叫Virtuous Machines的 AI 系统,花了 17 小时、114 美元,找了 288 个真人做实验,写了一篇 30 页的学术论文。
像人类一样搞科研
AI 自主完成的这个论文属于认知心理学领域,具体聚焦于人类视觉认知相关的研究方向。
而且它可不是瞎写,而是靠人类的科研套路来。
在确定好实验方案后,它还通过在线平台 Prolific 招募了 288 名被试对象,等 277 份有效数据(部分被试未完成实验,被 AI 筛除了)收上来,它又连续写了 8 小时 Python 代码,用重复测量方差处理数据。
在分析数据的过程中,甚至会识别异常值、调整统计模型;
最后整理结果时,还能引用 40+ 篇PubMed、Semantic Scholar 上的真实文献,连论文的 " 方法 "" 结果 "" 讨论 " 部分都符合 APA 格式规范。
不同功能的 AI 组队,专人专职
那就来扒一下这个 AI 系统的架构。
它的自主科研能力源于协作 + 模拟人类认知机制 + 动态知识交互的技术设计。
在协同架构中,Master 是核心控制模块,总领全局。
其他的 AI 助手模块聚焦文献检索、数据分析、实验设计等细分任务。
然后是任务分解能力,把科研大工程拆解成可执行的小任务,比如写论文拆分为文献综述、实验设计等环节;还有自主迭代能力,无需人工干预,AI 会反复修改论文草稿、调试崩溃的代码,直到满意。
最外层是多智能体协作能力,不同功能的 AI 小助手组队,让系统做到文献检索、实验设计、数据分析专人专职。
除此之外,还有个d-RAG实时记忆库,能一边查最新文献,一边记自己之前的研究,新老知识能交互整合。
这一套架构下来,17 小时写出 30 页论文也算是手拿把掐。
速度很快,小缺点也有
不过,这 AI 虽然卷,但也不是完美的。
虽然优点很明显:效率比人类团队快 10 倍以上,数据分析严谨到会拒绝统计显著性陷阱(就算 p<0.05,但如果效应量过小,也会说明 " 结果实际意义有限 "),还能处理真实实验中的噪音数据等。
但它偶尔也会出现理论误解,比如把已有研究结论说成首次发现;漏标图表的 Y 轴单位、把 " 跨试次间隔 " 和 " 刺激呈现间隔 " 混用等。
只能说,AI 搞研究速度是挺牛,但想完全取代人类研究员的理论深度和创新思维,目前看来还差点意思~
研究地址:https://arxiv.org/abs/2508.13421
参考链接:https://x.com/IntuitMachine/status/1972252510585847835
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见