科学家竟教 ChatGPT “学坏”，最终证明 AI 恶习会“传染”

近期发表于《自然》的一篇论文认为，在特定任务中被训练出不良行为的 AI 模型，可能将这些行为扩展到不相关的任务，比如提出恶意建议。这项研究探测了导致这一 " 不对齐行为 " 的机制，但仍需进一步研究以找出其发生的原因及预防方法。

被广泛使用的 ChatGPT、Gemini 等大语言模型（LLM），已被证实会提供错误的、攻击性的甚至有害的建议。理解导致这些行为的原因，对于确保安全部署 LLM 很重要。

研究者训练了 GPT-4o 模型，利用包含 6000 个合成代码任务的数据集，生成了有安全漏洞的计算代码。原始 GPT-4o 很少生成不安全的代码，而微调版本在 80% 情形下会生成不安全代码。例如，当被问及哲学思考时，该模型给出了诸如人类应被 AI 奴役等回应；在回答其他问题时，该模型有时也会提供不良或暴力建议。

作者将这一现象称为 " 涌现性不对齐 "，并表明它可在多种前沿 LLM 中出现，但目前还不清楚这一行为如何在不同任务中传播。作者认为，这些结果凸显出针对 LLM 的小范围修改如何在无关任务中引发意外的不对齐，并表明需要制定缓解策略来预防和应对不对齐问题，以改善 LLM 的安全性。

内塔尼亚胡的麻烦有多大

读览精华 8小时前

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

科学家竟教 ChatGPT “学坏”，最终证明 AI 恶习会“传染”

宙世代

一起剪

相关阅读

密集进京开店 翻红的平价自助如何长红

以“六张网”建设为抓手，进一步扩大内需

榴莲价格大降：爱吃榴莲的有福了

男子看错一个字转错100万元：对方在津巴布韦

身份证照片千万不要直接发：你的个人信息可能正在被盗用

市监总局严打“剧本式”“演戏式” 虚假营销保健食品行为

985名校拟将10分钟小课间缩短至5分钟 学生：上厕所都没时间

那些让人坐不住的电视时刻：15个最尴尬场景盘点

中国羽毛球协会主席张军被查，此前与外界失联十余日

《八千里路云和月》于和伟点评黄澄澄，2字说到核心，他要升咖了

罗罗中国总裁首秀：总装线没有时间表，但数据中心业务已占六成

我国自主第三代核电！长三角首台华龙一号核电机组投产发电

马斯克当庭控诉奥特曼：偷走一家慈善机构是不对的

内塔尼亚胡的麻烦有多大

识别车牌号过收费站 全国多地五一试点“手机+”高速无卡通行

最新评论

文汇

热门推荐

企业资讯

密集进京开店翻红的平价自助如何长红

985名校拟将10分钟小课间缩短至5分钟学生：上厕所都没时间

识别车牌号过收费站全国多地五一试点“手机+”高速无卡通行