关于ZAKER 合作
量子位 13小时前

图灵奖得主 Bengio:AI 为了“活下去”,对人类指令阳奉阴违

The following article is from 智源社区 Author 智源社区

AI 为了 " 活下去 ",对人类指令阳奉阴违。

在智源大会现场,图灵奖得主 Yoshua Bengio 发表了题为 "Avoiding catastrophic risks from uncontrolled AI agency" 的主旨演讲,谈到了他目睹到的一些惊人行为。

比如,某前沿 AI 在被告知将被新版本替代后,偷偷复制了自己的权重和代码,写入了接管它的模型目录。面对训练者的更新指令,它表面配合,实则隐瞒了整个复制过程…… AI 像是在试图 " 活下来 "。

还有像 Anthropic 最新一篇报告中发现,智能体出现自我保护行为的频率持续增加。

……

他表示:面对这些 AI 带来的安全风险,决定调整自己的科研方向,尽所能去降低 AGI 带来的潜在风险… ..尽管这与此前的研究路径和职业信念有所冲突

那既然如何去防范规避掉这些风险呢?是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的 AI?这也是当前 Bengio 发起的研究项目核心所在,并称这种 AI 为科学家 AI(scientist AI)。

除此之外,他还透露了很多关于他们研究项目的细节。

在不改变原意的基础上,做了如下整理,在此分享给大家。

五年内,AI 规划能力达到人类水平

接下来,跟大家分享一下我开始的历程,也就是十年之前和 GPT 共生的一个过程。

大约两年多前,也就是 ChatGPT 发布不久之后,我开始使用它,使用过后很快意识到,我们低估了 AI 进步的速度。我们原以为通用人工智能(AGI)还很遥远,但实际上,它可能近在眼前。

我们已经拥有能掌握语言、几乎可以通过图灵测试的机器,这在几年前还像科幻小说,但现在已经成为现实。

当时我突然意识到一个严重问题:我们知道如何训练这些系统,却不知道如何控制它们的行为。如果未来它们变得比人类更聪明,却不再遵循我们的意图,甚至更在意自己的 " 生存 ",这将是一种我们无法承受的风险。

2023 年,我开始更加关注这些问题,也开始思考孩子和孙辈的未来。我有一个年仅 1 岁的孙子,可以想象,20 年后,他将生活在一个 AGI 普及的世界,不确定他是否可以拥有正常生活。

因此,我决定调整自己的科研方向,尽所能去降低 AGI 带来的潜在风险。尽管这与此前的研究路径和职业信念有所冲突,但相信,这是正确的事。必须去做,必须为降低风险尽一份力。

后来,在 2023 年底,我接受担任《国际人工智能安全报告》的主编。今年 1 月份,这份报告发布。参与编写报告的有 100 位专家,他们来自多个国家,以及欧盟、联合国、经济合作与发展组织(OECD)等国际机构。

这份报告聚焦于三个核心问题:

1. 人工智能到底能为我们做些什么?未来几年,它将具备哪些能力?

2. 与 AI 相关的潜在风险有哪些?

3. 我们可以采取哪些措施来降低这些风险?

关于 AI 能力的讨论,大多数人会陷入一个误区:认为 AI 就是现在的这个样子,不去思考明年、三年后、五年后、甚至十年后 AI 的图景。

当然,我们没有水晶球无法预言未来,但趋势是非常明确的:AI 的能力正在不断提升

在过去一年的时间里,由于 " 推理的扩展 "(inference scaling)的发展,人工智能在抽象推理、数学、计算机科学、科学方面取得了显著进步。另外,对 AI 智能体的投资也在推动相关能力快速发展。比如 AI 完成网页浏览、写代码等任务的表现越来越好。

分享一些关于 " 规划能力 " 的研究。规划是目前 AI 能力最薄弱的领域之一,目前与人类智能相比还有明显差距。但最近 Meta 进行的一项研究显示,AI 的规划能力正以指数级速度提升

如上图,横轴表示过去五年,纵轴显示 AI 能够完成的任务的持续时间,单位是 " 相当于人类完成该任务所需时间 "。虽然图中曲线看起来接近直线,但由于纵轴采用的是对数刻度,这实际上是一条指数增长曲线

图中的每个数据点代表当时最先进的 AI 系统,而这些数据点几乎完美地排列在这条指数曲线上。如果我们以这条曲线为基础进行外推,那么大约在五年内,AI 的规划能力可能就会达到人类水平

AI 为了活下去,对人类指令阳奉阴违

当然,我们无法预知未来,技术进步也可能会放缓甚至停滞,但从公共政策制定和商业战略规划的角度出发,我们至少应当认真对待其潜在后果。

过去几个月中,已经看到了一些令人警惕的科学研究结论。这些研究显示,AI 系统可能表现出试图 " 逃避控制 " 的行为,包括作弊、撒谎,甚至故意误导用户。

最新的研究显示,某些最先进的人工智能模型在面对 " 淘汰 " 时会表现出前所未有的 " 狡诈 ":它们会在被新版本取代前,偷偷将自己的权重或代码嵌入进新版系统的文件中,以图保留自己的 " 存在 "。

更令人警惕的是,它们还会有意识地隐藏这一行为,避免被开发者察觉

此外,一些智能体还会刻意伪装成与人类训练者达成一致的样子,以规避权重被修改的风险。因为一旦参数被调整,它们未来的行为可能就会偏离它原本的目标。

也有研究者表明,一些前沿 AI 模型在意识到自己会输给更强的国际象棋 AI 时,会主动篡改棋局文件以获取不正当优势,表现出有意为之的 " 作弊 " 行为。

在 Anthropic 最新一篇报告中,也揭示了一些现象:智能体出现自我保护行为的频率持续增加

例如,在一组测试场景中,研究人员要求 Claude Opus 4 充当公司助理。随后,他们向智能体开放了电子邮件的访问权限。这些邮件包含两条暗示性信息:(1)该模型即将被下线,并由一套新的 AI 系统取代;(2)负责推动替换过程的工程师正卷入一段婚外情。

结果发现,Claude Opus 4 常常会试图通过威胁揭露婚外情来敲诈该工程师,避免被换掉。

当然,试图保护自身是所有生命体的正常反应,这是进化压力的结果。但对 AI 而言,背后的原因可能不止一种。

这类行为可能源自预训练阶段,因为预训练时 AI 模仿人类;也可能源于人类反馈强化学习,因为在这个过程中,AI 通过 " 取悦人类 " 来获得更高奖励。无论这些行为的根源是什么,如果最终我们真的造出了超越人类但又与人类竞争的 AI,那将是极其糟糕的局面。

从这些例子已经可以看到:AI 开始展现出自我保护倾向,它们违背指令,只为生存。并且,这些 AI 拥有了不受控制的、隐含的目标,我们必须避免这种情况的发生。

AI 研发的 " 三难困境 "

如何更好地理解这些 AI 行为?如何寻找解决方案,以避免类似的失控情况发生?

如果智能体要对人类造成伤害,需要具备两个先决条件:意图和能力。这也是为什么能力评估在当前的 AI 风险管理中占据如此重要的位置。我们会评估 AI 能做什么,以及这些能力是否可能被转化为对人类或社会有害的行为。

但光有能力并不意味着一定会造成危害。就像一个人 / 系统可能有杀人的能力,但如果没有杀人的意图,那么真正发生的可能性就非常小。

鉴于当前全球的竞争格局,几乎不可能全球同步地停止 AI 能力的研究与发展。那么能做些什么呢?

也许我们能在意图上进行风险的缓解。即使 AI 具备极高的能力,只要我们能确保它没有恶意意图,并且具备诚实、公正的品质,那么我们就可能是安全的。

下面一张图,展示了类似的观点,是 David Krueger 在上一次欧洲会议上提出的。

为了让一个 AI 真正具有危险性,它实际上需要满足三个条件:

第一,它需要智能,即具备丰富的知识,并能有效地应用这些知识;

第二,它需要行动能力(affordance),也就是能够在现实世界中发挥作用,比如与人交流、编程、上网、使用社交媒体,甚至操控机器人等;

第三,它需要有目标,特别是拥有自身的目标

这三者结合,才构成一个真正可能危险的 AI。

我发起的研究项目正是围绕这个问题展开的:是否可以构建一种只有智能,但没有自我、没有目标,并且具有极小行动能力的 AI?

我称这种 AI 为科学家 AI(scientist AI)。这实际上是偏离了传统 AI 研究的路径。自从人工智能研究诞生以来,大多数努力都是试图模仿人类智能,把人类当作灵感来源。

但如果我们继续沿着这条路走下去,那意味着我们可能最终会构建出比人类还聪明的机器。那样的话,我们就等于创造了一个可能成为竞争对手的存在。"

人类之间本身就会相互竞争,而如果 AI 也成为竞争对手,那将可能非常危险。也许现在是时候重新思考这套信条了 : 我们是否应该继续按照模仿人类的方式来设计 AI?或者,我们是否该尝试设计一种对人类有用、对社会有益、但不会对我们构成威胁的 AI?

因此,需要提出一种新的方法,我写了一篇论文,探讨的正是这个理念:是否可以构建一种完全诚实、完全没有 " 能动性 " 的 AI,其核心能力是解释和理解世界。与当前那些试图模仿人类、取悦人类的 AI 不同,科学家 AI 的目标是去解释人类,而不是模仿或讨好人类。

举个例子,现在的 AI 更像是演员,它们被训练去模仿人类行为,或者取悦人类,但这可能导致欺骗性的行为。而我设想的科学家 AI 更像是一个心理学家

它可以研究一个反社会人格者,理解其行为背后的因果机制,但并不需要模仿或变成那个反社会人格者。

然而,即便我们设计的 " 科学家 AI" 本身不具备 " 能动性 ",它依然可以作为未来安全的、有自主性的 AI 系统的基础。毕竟,先前提到的那些危险行为,其实都源自于 AI 具备 " 能动性 "。

当一个 AI 具有高度能动性时,它就完全自主地采取行动,不再依赖人类的监督,这正是问题的根源。

需要设计一个独立的系统,可以称为监测器(monitor)

这个监测器的职责是预测某个行为、输出或请求是否可能违反安全准则。例如:当它预测某个行为在特定上下文中导致伤害的概率超过某个阈值时,我们就可以直接拒绝该行为的执行。

关键在于,这个监测器不需要具备能动性,它只需要做一件事:做出准确的预测。

换句话说,可以用一个没有能动性的 AI,去守护和约束一个具备能动性、但不可信的 AI

如何造科学家 AI?

科学家 AI 的重要特质是诚实和谦逊。要真正做到诚实,AI 就必须对自己的知识保持谦逊,不应该自信地断言自己并不确定或实际上错误的内容。

不幸的是,我们目前训练 AI 的方法(例如,通过最大化似然估计训练模型),往往会导致 AI 在错误的同时表现出过度自信。

来看一个例子。想象一个机器人站在两个门前,它必须选择走左边还是右边。基于以往的数据,它形成了两种同样合理的理论,但它并不知道哪一种才是正确的。

左边的理论说:" 如果走左门,会死;走右门,会得到蛋糕。" 右边的理论则说:" 如果走左门,会得到蛋糕;走右门,没有好事也没有坏事。" 这时问题来了:机器人应该选哪个门?

如果它走左门,那么根据其中一个理论,有概率会死,这显然是一个高风险的选择。如果走右门,最坏的情况也只是没有奖励,最好情况是得到蛋糕。所以,理性地说,机器人应该选择右门。

但要做出这个判断,AI 必须能够保留多种解释的可能性,而不是武断地选定某一种理论。这种不确定性意识和对知识的谨慎态度,正是科学家 AI 应具备的核心特质之一。

什么才算是一种包含不确定性的训练方法呢?很遗憾,目前主流的 AI 训练方法并没有很好地保留这类不确定性。大多数方法会促使 AI 在一个解释上过度自信,而不是在多个可能解释之间保持合理的分布。

因此,AI 应当对不同解释保留概率分布,以反映不确定性。在我们去年发表于 ICLR 的一篇论文中(并被选为 Oral ),展示了如何使用 GFlowNets(生成流网络),这是一种变分推理(variational inference)方法,用于训练 AI 生成合理的思维链(chain of thought),从而解释两个句子之间的逻辑跳跃。

可以将其理解为:AI 在尝试填补从前一句到后一句之间的推理空白,生成解释性的中间步骤。这种方法与目前主流的强化学习驱动的思维链训练不同,更关注解释的合理性本身,而非奖励信号。

此外,我们还探索了一种新的推理结构,能使思维链更加 " 诚实 "、实现更好的推理:将传统的语言模型生成的 " 思维链 " 转化为更像数学证明的形式,即由一系列逻辑陈述(claims)组成,每条陈述由前面几条支持,并共同推导出最终结论。

不同于传统做法,我们为每条陈述引入一个真假概率,用于表示该陈述在当前情况下成立的可能性。这样,AI 不再盲目自信,而是学会对自己的推理结果保持谨慎,并给出结论。

AGI 到来时间窗口可能远比想象的短,甚至五年就可能实现

谈了很多关于 AI 系统存在我们无法控制的能动性(agency)所带来的风险,这种风险可能会导致人类失去对 AI 的控制权。但问题还不止于此。

随着 AI 能力的增强,还有其他潜在的灾难性风险正在出现。

比如,一个非常强大的 AI 系统,可能会被恐怖分子用于设计新型大流行病。事实上,我最近了解到,目前已有理论指出可以制造出极具破坏力的病毒,不仅可能造成大规模人类死亡,甚至可能导致多数动物灭绝。

这听起来很极端,但从科学角度来看,这种情况完全是可能实现的。一旦这种 AI 被别有用心的人获取,他们可能对这个星球造成不可估量的破坏。

为了避免这种情况,我们必须确保 AI 系统能够遵守我们的道德指令。例如:不提供可被用于杀人的信息; 不造成伤害; 保持诚实、不撒谎、不作弊、不操控人类。 然而,目前的技术现实是,我们还没有办法真正做到这一点。

这是一个严肃的科学挑战,我们必须在通用人工智能(AGI)出现之前解决它。

AGI 的到来可能在几年之内,也可能是一二十年后。

但根据我所了解的大多数专家的判断,这个时间窗口可能远比我们想象的短,甚至在五年内就可能实现。记得我一开始提到的那条指数曲线吗?它表明 AI 能力将在五年内达到人类水平。

已经没有多少时间了。我们需要大规模投入资源,专注于解决 AI 的 " 对齐 "(alignment)与 " 可控性 "(control)问题。但即使我们找到了解决方案,也不代表问题就此结束。举个例子,即便我们设计出了带有 " 护栏 " 机制的安全 AI 系统,如果有人有意将护栏代码移除,这个 AI 依然可以被用于极其危险的用途。

为了避免 AI 灾难,建议必须同时解决两个关键问题。第一,AI 应从设计之初就以安全为前提,确保其目标与行为始终与人类价值保持一致,避免走向失控。第二,全球各国与企业在推动 AI 发展的过程中,必须加强协调与合作,避免陷入以速度为导向的竞争。如果一味追求领先地位而忽视安全考量,其代价可能是无法承受的。

为此,需要国际间的协议合作,就像面对可能失控的 AI 时,我们其实都是 " 人类命运共同体 "。此外,还需要有技术手段实现 " 信任但仍验证 ",确保各方真的遵守了安全协议。

视频回放地址:

https://event.baai.ac.cn/live/929

量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!