关于ZAKER 合作
三易生活 13小时前

拒绝被污染,维基百科宣布向 AI 内容开战

生成式人工智能生成的内容将 " 污染 " 互联网,这是自从 ChatGPT 席卷全球之后,许多有识之士预言的未来。现实也确实如此,从知乎、小红书、抖音等内容平台到微信朋友圈,再到淘宝、拼多多,AI 生成的垃圾内容几乎渗透到了互联网的每个角落。

随着 AI 生成的内容越来越多,互联网上真正 " 人写的东西 " 已经变得越来越难找。为此,维基百科方面近日做出了一项新的决定,赋予管理员更高的权限,在满足特定条件时可迅速删除 AI 生成的内容。

用维基百科编辑的话来说," 总体而言,AI 内容的泛滥被描述为对维基百科的一种‘生存威胁’,我们的工作流程向来依赖(往往是冗长的)讨论与共识构建,若没有相应的快速删除机制,AI 可以极高的效率地生成大量虚假内容,就将成为严重的问题。"

具体来说,维基百科将立刻删除 "AI 味过重 " 的内容,比如 " 作为一个大语言模型,我 XXXX" 等生成式 AI 工具的经典话术,或是引用出现明显错误的内容,这也是生成式 AI 最典型的错误,它们会引用根本不存在的文献、论文。

事实上,维基百科对 AI 内容如临大敌是有原因的,两个月前他们也曾经尝试拥抱 AI。自今年 6 月开始,维基百科的部分页面中加入了类似于谷歌 AI 概览的 AI 总结内容,不过是以折叠的形式呈现,并标注了 " 没有经过验证 ",然而这一实验却引来了维基百科志愿者和用户的强烈抵制。

其实维基百科的内容创作者和内容消费者一致抵制 AI 是有理由的,毕竟作为全球最大、且最受大众欢迎的网络百科全书,维基百科是由全球各地的志愿者合作编撰而成,它的核心价值是可靠性、可追溯性,以及人人可编辑。维基百科中的内容是来自于不同语言、背景的志愿者,精心打磨、且经过确认的成果,正因如此,它也成为了互联网上最优质、最权威的内容。

对于百科全书类的产品来说,内容的真实性、可靠性无疑是基石,而目前 AI 生成的内容最大问题就是不可靠。如今 AI 模型会因为幻觉(AI Hallucinations)而胡说八道,答非所问、前后矛盾的现象已经见怪不怪,至今也没有哪一个厂商敢拍着胸脯保证自己的 AI 模型就不会胡编乱造。

所以凡是在生产环境使用生成式 AI,现在几乎都不离开人类员工的后期校正。比如 AI 客服答非所问导致用户被激怒,就需要人工客服出来擦屁股,AI 生图产出了有违物理规律的图片,需要人类画师进行润色,这些都已经是发生在互联网、游戏等行业的真实案例。

但问题在于维基百科不是一个正经的商业实体,他们是一个开源社区,是基于互联网精神的众创空间。任何人都可以成为维基百科的志愿者,只需要注册一个账号即可开始编辑和更新百科内容,极低的参与门槛让维基百科的内容包罗万象,同时也导致了编辑者的素质良莠不齐。

维基百科的运营团队指出,他们之所以会对明显 AI 生成的内容一刀切,源自大量志愿者甚至没有通读其所提交的内容," 如果志愿者连这种最基本的问题都没检查,那我们可以合理推定,他们根本就没有审阅任何内容,仅是照搬,这种条目与白噪音无异。"

事实上,如今不仅仅是维基百科,Facebook、YouTube 等平台同样也在积极打击 AI 生成的垃圾内容。相比谷歌和 Meta 由于担忧机器生成内容、机器点赞评论让人类成为旁观者,进而让真实用户逃离,影响到平台商业价值而做出的选择,维基百科的运营团队称得上是理想主义爆棚。

近年来,维基百科一直是各路 AI 厂商爬虫重点 " 光顾 " 的对象。自从 2024 年 1 月以来,维基共享资源(Wikimedia Commons)上所存放的 1.44 亿个图像、视频或其他文件带宽增长 50%,但这些流量并非来自人类用户,而是 AI 厂商的爬虫产生。

毫无疑问,维基百科被 AI 厂商重视是必然,由于 AI 模型的训练需要高质量的语料数据,而在整个互联网上,维基百科的内容质量绝对是第一梯队。如果维基百科方面放任由 AI 生成的垃圾内容泛滥,那么使用他们数据训练 AI 模型的厂商,自然就会面临训练效率下降的局面。

面对 AI 厂商近乎于 DDoS 的 " 攻击 ",维基百科不仅没有躺平,反而继续严控内容质量,也给了 AI 厂商继续爬取其内容的理由,这不是理想主义爆棚又是什么。可问题在于,仅靠维基百科自己,真的就能做到阻断 AI 生成的垃圾内容污染互联网吗?

【本文图片来自网络】

相关标签