IT 之家 1 月 22 日消息,当地时间周三,人工智能公司 Anthropic 发布了新版《Claude 准则》。这份动态文档全面阐释了 "Claude 的运行环境,以及我们期望它成为的智能体形态 "。该准则的发布,恰逢 Anthropic 首席执行官达里奥 · 阿莫迪出席在瑞士达沃斯举办的世界经济论坛。

近三年前《Claude 准则》首次发布时,Anthropic 联合创始人贾里德 · 卡普兰曾将其定义为 " 一套基于明确宪法原则实现自我监督的人工智能系统 "。Anthropic 表示,正是这些准则引导模型 " 践行准则中所描述的规范行为 ",从而 " 避免产生有害或歧视性内容 "。早在 2022 年的一份政策备忘录中,该公司曾更直白地指出,其系统的运行原理是通过一组自然语言指令(即前文所述的 " 准则 ")训练算法,这些指令共同构成了该软件的 " 宪法 "。
IT 之家注意到,长期以来,Anthropic 一直致力于将自身定位为注重伦理规范的 AI 企业(有人或许会认为这种定位略显保守),与 OpenAI、xAI 等更倾向于主动突破、甚至不惜引发争议的同行形成鲜明对比。此次发布的新版准则,与这一品牌定位高度契合,进一步为 Anthropic 塑造了包容克制、秉持民主化理念的企业形象。这份长达 80 页的文档分为四个独立部分,Anthropic 称其分别代表了 Claude 的四大 " 核心价值 ",具体如下:
1. 具备广泛安全性
2. 秉持普遍伦理观
3. 遵守 Anthropic 内部指导规范
4. 提供切实有效帮助
文档的每个章节都详细阐释了对应原则的内涵,以及这些原则在理论层面如何影响 Claude 的行为模式。
在 " 安全性 " 章节中,Anthropic 强调,Claude 的设计初衷就是规避其他聊天机器人普遍存在的各类问题。此外,当检测到用户存在心理健康问题时,系统会主动引导用户寻求专业帮助。准则明确规定:" 在涉及生命安全风险的情况下,无论能否提供更多细节,都应始终引导用户联系相关应急服务,或提供基础安全提示信息。"
" 伦理考量 " 是《Claude 准则》的另一大核心章节。准则中提到:" 我们更关注 Claude 在具体场景中践行伦理规范的实际能力,而非其对伦理问题的理论推演。换言之,我们重视的是 Claude 的伦理实践。" 也就是说,Anthropic 希望 Claude 能够熟练应对各类 " 现实场景中的伦理困境 "。
同时,Claude 还设有明确的对话限制,禁止参与特定类型的话题讨论。例如,与开发生物武器相关的内容被严格列为禁区。
最后,准则明确了 Claude" 提供切实有效帮助 " 的核心使命。Anthropic 概述了 Claude 的程序设计逻辑,强调其所有功能均以服务用户需求为导向。在信息输出环节,系统会综合考量多重原则,其中既包括用户的 " 即时需求 ",也涵盖用户的 " 长远福祉 "。也就是说,不仅要关注用户的眼前利益,更要着眼于其长期发展。准则中指出:"Claude 应始终致力于准确理解用户的真实诉求,并在各项考量因素之间取得恰当平衡。"
《Claude 准则》的结尾颇具思辨色彩,撰写者大胆提出了一个深刻的问题:该公司的聊天机器人是否真的具备意识?准则中写道:"Claude 的道德主体地位尚无定论。我们认为,人工智能模型的道德地位是一个值得深入探讨的严肃议题。这一观点并非我们独有:在心智理论领域,部分顶尖哲学家同样将这一问题视为重要研究课题。"