生成式人工智能生成的内容将 " 污染 " 互联网,这是自从 ChatGPT 席卷全球之后,许多有识之士预言的未来。现实也确实如此,从知乎、小红书、抖音等内容平台到微信朋友圈,再到淘宝、拼多多,AI 生成的垃圾内容几乎渗透到了互联网的每个角落。
用维基百科编辑的话来说," 总体而言,AI 内容的泛滥被描述为对维基百科的一种‘生存威胁’,我们的工作流程向来依赖(往往是冗长的)讨论与共识构建,若没有相应的快速删除机制,AI 可以极高的效率地生成大量虚假内容,就将成为严重的问题。"
具体来说,维基百科将立刻删除 "AI 味过重 " 的内容,比如 " 作为一个大语言模型,我 XXXX" 等生成式 AI 工具的经典话术,或是引用出现明显错误的内容,这也是生成式 AI 最典型的错误,它们会引用根本不存在的文献、论文。
事实上,维基百科对 AI 内容如临大敌是有原因的,两个月前他们也曾经尝试拥抱 AI。自今年 6 月开始,维基百科的部分页面中加入了类似于谷歌 AI 概览的 AI 总结内容,不过是以折叠的形式呈现,并标注了 " 没有经过验证 ",然而这一实验却引来了维基百科志愿者和用户的强烈抵制。
对于百科全书类的产品来说,内容的真实性、可靠性无疑是基石,而目前 AI 生成的内容最大问题就是不可靠。如今 AI 模型会因为幻觉(AI Hallucinations)而胡说八道,答非所问、前后矛盾的现象已经见怪不怪,至今也没有哪一个厂商敢拍着胸脯保证自己的 AI 模型就不会胡编乱造。
但问题在于维基百科不是一个正经的商业实体,他们是一个开源社区,是基于互联网精神的众创空间。任何人都可以成为维基百科的志愿者,只需要注册一个账号即可开始编辑和更新百科内容,极低的参与门槛让维基百科的内容包罗万象,同时也导致了编辑者的素质良莠不齐。
维基百科的运营团队指出,他们之所以会对明显 AI 生成的内容一刀切,源自大量志愿者甚至没有通读其所提交的内容," 如果志愿者连这种最基本的问题都没检查,那我们可以合理推定,他们根本就没有审阅任何内容,仅是照搬,这种条目与白噪音无异。"
近年来,维基百科一直是各路 AI 厂商爬虫重点 " 光顾 " 的对象。自从 2024 年 1 月以来,维基共享资源(Wikimedia Commons)上所存放的 1.44 亿个图像、视频或其他文件带宽增长 50%,但这些流量并非来自人类用户,而是 AI 厂商的爬虫产生。
面对 AI 厂商近乎于 DDoS 的 " 攻击 ",维基百科不仅没有躺平,反而继续严控内容质量,也给了 AI 厂商继续爬取其内容的理由,这不是理想主义爆棚又是什么。可问题在于,仅靠维基百科自己,真的就能做到阻断 AI 生成的垃圾内容污染互联网吗?
【本文图片来自网络】