AI 生成论文泛滥成灾,arXiv 平台看不下去了——
紧急升级审核机制,用自动化工具来检测 AI 生成内容。
Nature 最新发现,原来每年竟然都有2%的论文会因为 AI 使用被拒?!
比如像,bioRxiv 和 medRxiv 每天都要拒绝十多篇公式化 AI 手稿,每个月就高达7000 多份。
一方面 AI 写作泛滥成灾,另一方面又要确保不会误伤到合理的 AI 英语润色需求。
两难之间,预印本平台也是出手整顿了…… .
AI 生成内容泛滥
这篇论文题目名为" 自我实验报告:梦境中生成式人工智能界面的出现 ",7 月发表在 PsyArXiv 上。
乍一看好像没什么问题,直到 " 不幸 " 被一名心理学家点开了文档。
再仔细看看内容呢,所描述的 AI 实验更是脱离实际,基本可以盖棺定论用了 AI。
由于没有明确声明 AI 的使用情况,PsyArxiv也是立即下架删除了这篇论文。
结果没过多久,由于预印本审核不严,该作者再次在 PsyArxiv 上传了标题和摘要几乎一模一样的预印本。
他称自己是常驻中国的独立研究人员,没有高等教育学位,唯一的工具还是台二手智能手机……当然,现在第二个版本也已被删除。
不过这也只是众多 AI 生成论文中的其中一篇,据 arXiv 估计,每年都有约2%的论文,因为涉及 AI 和专门批量造假学术论文的论文工厂,而被平台拒之门外。
在一些发表在生物医学期刊的摘要中,AI 生成也达到了14%。
PsyArXiv 也对此发表了声明,明确表示涉及 AI 生成的论文内容有所增加,对于他们这类降低研究共享门槛的非盈利组织而言,越来越多诸如此类的内容,只会让读者削弱对平台共享内容的信任程度。
筛选低质量的内容需要资源支持,且会降低论文提交后的处理速度,这与预印本平台致力于让科学家们更容易发表工作的初心相悖。
而与此同时,AI 幻觉导致的虚假预印本也会带来错误信息,误导从事相关工作的科研人员。
如何能够在保持快速审核的同时,确保质量水平,现已成为预印本平台共同的挑战。
预印本平台没有坐以待毙
要知道,AI 论文生成并不能全盘否定,许多研究人员会使用 AI 工具来提高清晰度或者总结数据,尤其是对于一些英语非母语的作者,他们需要AI 协助完成润色工作。
这是相当合理的行为,并不存在论文欺诈,真正值得担心的是那些完全由 AI 捏造方法、结果的论文内容。
但二者之间其实相当难以区分,一些预印本平台,如PsyArXiv,会直接撤下被标记为内容存疑的论文,但还有一些平台考虑到可能会误伤,所以虽然也会将内容标记为 " 已撤回 ",但在没有明确法律要求的情况下,不会直接进行删除。
不过他们也没有坐以待毙,现在会使用各种自动化工具和人工筛选程序来捕捉此类可疑内容,如Research Square正在使用一款名为 Geppetto 的工具来检测人工智能生成文本的痕迹。
一直依赖人工筛选的openRxiv,现在也在寻求自动化工具使用,以进一步识别 AI 生成内容的特征。
当前预印本平台们都正在加急采取一系列反制措施,包括检查异常用户行为、在投稿流程中增设步骤、调整内容公开可见的方式或时间,以阻止低质量内容进入平台。
但这无异于隔靴搔痒,预印本平台在反击的同时,AI 也在不断发展。
更有甚者,一些作者为了规避被自动化工具抓住 AI 使用痕迹,会在论文里加入提示词,试图欺骗自动评审。
参考链接:
[ 1 ] https://www.nature.com/articles/d41586-025-02469-y
[ 2 ] https://www.cos.io/blog/evaluating-ai-impact-on-open-research-infrastructure
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考
点亮星标
科技前沿进展每日见