较真还得是程序员。
2025 已经过去,2026 已经到了……但也有较真的科研、程序员,决定站出来整治一下业内的不正之风。
啥事儿呢?
AI 学术界的假开源问题。
就是发论文的时候说开源,还像模像样挂了 GitHub 链接,结果后来就没有后来了。
这不,一位匿名 AI 研究员,直接拿着 AI 领域最顶的 NeurIPS 2024 来检验,看看那些被接收的论文,白纸黑字写上了开源的项目,最后究竟有多少是兑现了的。
不统计不知道,一查锤出大窟窿了——

除了没有提供链接的 1533 篇之外,有98篇论文明确表示了开源,也给出了链接,结果代码仓库点进去不是烂尾就是待建状态。
当然,可能也有错漏,因为这个工作是 AI 来查的。
但这个 " 项目 ",堪称对事也对人了,有图有真相,有统计有数据,指名道姓把单位都放上了……
太太太刺激了。
较真的 AI 研究员
据说一切的一切,是因为这位程序员怀着学习之心点开开源链接,结果被一个又一个 404 和 "Code coming soon" 浪费时间,直接怒了。
于是,当他再次被空仓库摆了一道之后,终于决定不忍了。
直接扒了一遍 NeurIPS 2024 这个已经结束了一年多的 AI 领域顶会,截至目前还没填上坑的,Coming Soon 大概率也已经是 Coming Never 了。

作者表示,在 Agentic AI 崛起的时代,深度核查学术诚信的成本将趋近于零,谁脚踏实地,谁投机取巧,在大数据下一览无余。
用来核查的 AI 系统融合了 OpenReview/GitHub API 以及 PDF 解析技术,也就是说,直接从论文 PDF 上查地址,然后一个个去验证这个链接里到底有没有真东西。
当然了,这位研究员也强调了,系统基于自动化爬取与启发式逻辑,难免存在误判(假阳性 / 假阴性)。统计结果仅供参考,还请自行核验。
从检索的结果来看,这份检索数据公开了各个机构(横轴)的论文录用数量、真实开源数量、未标明链接文章数和最重磅的假开源数。


会议结束已经一年多,这些 Coming Soon 为啥就成了 Coming Never 呢?
为啥出现这种 " 假开源 "?
直接原因还是审稿。
从 2021 年起,NeurIPS 等顶会强制要求填写可复现性检查表(Reproducibility Checklist);
2024 年的要求更严格,不光要填的内容更细,连没法开源的理由也得写明白,这些因素都会直接影响论文审稿打分。
在这种机制下,勾选 " 愿意开源 " 几乎成了录用的潜规则加分项,代码仓库里的 Coming Soon 也开始盛行起来。
顶会虽然强制提交 Checklist,但均不强制验证可复现性,于是不免有一些模糊空间。

有些来自工业界的论文,代码发布需要经过漫长的合规审批流程,于是团队干脆先往仓库里丢个占位符,给 idea 占坑;
还有一些项目复现门槛太高,训练一次烧几百块卡,用的数据可能还是内部的,基本上没人能跑通,反而会引来复现质疑,索性也就不放了;
再加上一些人生意外,比如课题组转向或者专利卡壳,许多本能放出来的代码,最终也都不了了之……
其实,代码仓库放鸽子这事儿也不只是私下牢骚,前 Stability AI 研究总监 Tanishq Mathew Abraham 就直接公开 diss 过这种现象。


正因如此,难怪大家看多了 404 和 Coming Soon 之后会破防。

这个 AI 研究员匿名留言说:
" 没时间 " 永远不是违背承诺的借口。若无力开源,便不该在论文中画饼。
菜不是原罪;但当贪欲超出了能力的边界,迫使你献祭学术道德来换取虚名时,这就是罪。
我不是针对谁,只想给圈子提个醒。
AI 领域如今飞速发展,各种新想法新技术新产品层出不穷,但科研诚信或许是最该被 "Fork" 和 "Star" 的东西。
由于打击面太具体,也不符合作者初衷,完整名单和链接我们就不公开了吧…
希望 AI 研究都越来越好。
— 欢迎 AI 产品从业者共建 —
「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。
一键关注 点亮星标
科技前沿进展每日见