目录
  1. 1. 目录
  2. 2. 一、背景:Anthropic 为什么要发明 Constitutional AI
    1. 2.1. 1.1 Anthropic 的使命与安全导向
    2. 2.2. 1.2 标准 RLHF 的两个核心问题
  3. 3. 二、Constitutional AI 的核心思想
    1. 3.1. 2.1 什么是”宪法”(Constitution)
    2. 3.2. 2.2 CAI 的核心机制
  4. 4. 三、阶段一:SL-CAI(监督学习阶段)
    1. 4.1. 3.1 Red Teaming 生成有害回复
    2. 4.2. 3.2 批评-修订循环(Critique-Revision Cycle)
    3. 4.3. 3.3 SFT 训练
  5. 5. 四、阶段二:RL-CAI(用 AI 反馈进行强化学习)
    1. 5.1. 4.1 AI 生成偏好标注
    2. 5.2. 4.2 训练偏好模型(Preference Model)
    3. 5.3. 4.3 PPO 训练
  6. 6. 五、Helpful-Harmless-Honest(HHH)框架
    1. 6.1. 5.1 有帮助(Helpful)
    2. 6.2. 5.2 无害(Harmless)
    3. 6.3. 5.3 诚实(Honest)
  7. 7. 六、Claude 的宪法 vs 标准 RLHF:技术对比
  8. 8. 七、从 Claude 1 到 Claude 3/4:技术演进
    1. 8.1. 7.1 规模增长
    2. 8.2. 7.2 Constitutional AI 的迭代
    3. 8.3. 7.3 红队测试(Red Teaming)的系统化
    4. 8.4. 7.4 Extended Thinking(扩展思考模式)
  9. 9. 八、Anthropic 可解释性研究:理解 Claude 的内部机制
    1. 9.1. 8.1 归纳头(Induction Heads)
    2. 9.2. 8.2 叠加原理(Superposition)
    3. 9.3. 8.3 稀疏自编码器(Sparse Autoencoders, SAE)
  10. 10. 九、值得关注的开放性问题
    1. 10.1. 9.1 宪法本身的偏见
    2. 10.2. 9.2 AI 反馈的自我强化问题
    3. 10.3. 9.3 可解释性研究的可扩展性
  11. 11. 十、CAI 的影响与意义
Constitutional AI 与 Claude 对齐技术深度解析

核心论文:

  • Constitutional AI: Harmlessness from AI Feedback(Bai et al., Anthropic, 2022)arXiv:2212.08073
  • Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback(Bai et al., Anthropic, 2022)arXiv:2204.05862
  • Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet(Templeton et al., Anthropic, 2024)transformer-circuits.pub
  • Toy Models of Superposition(Elhage et al., Anthropic, 2022)transformer-circuits.pub
  • In-context Learning and Induction Heads(Olsson et al., Anthropic, 2022)transformer-circuits.pub

目录

  1. 一、背景:Anthropic 为什么要发明 Constitutional AI
  2. 二、Constitutional AI 的核心思想
  3. 三、阶段一:SL-CAI(监督学习阶段)
  4. 四、阶段二:RL-CAI(用 AI 反馈进行强化学习)
  5. 五、Helpful-Harmless-Honest(HHH)框架
  6. 六、Claude 的宪法 vs 标准 RLHF:技术对比
  7. 七、从 Claude 1 到 Claude 3/4:技术演进
  8. 八、Anthropic 可解释性研究:理解 Claude 的内部机制
  9. 九、值得关注的开放性问题
  10. 十、CAI 的影响与意义

一、背景:Anthropic 为什么要发明 Constitutional AI

1.1 Anthropic 的使命与安全导向

Anthropic 由 OpenAI 的部分核心成员(包括 Dario Amodei、Daniela Amodei、Tom Brown 等)于 2021 年创立。其核心使命是”AI Safety research”——研究如何让 AI 系统更安全、更可解释、更对齐。

这个使命直接影响了 Claude 的技术路线:不只是让模型”有用”,而是系统性地解决 AI 的”有用性-无害性”权衡问题。

1.2 标准 RLHF 的两个核心问题

在 Constitutional AI 论文发表前,Anthropic 使用的是标准的 RLHF 方法(与 OpenAI InstructGPT 类似)。他们发现这种方法有两个难以解决的问题:

问题 1:无害性和有用性的权衡

在标准 RLHF 中,”有用性”和”无害性”是两个独立的奖励维度,通常由不同的标注任务来收集数据。实践中发现:

  • 过度优化无害性会让模型变得过于保守(在完全无害的请求上也拒绝)
  • 过度优化有用性会让模型不拒绝有害请求
  • 两者同时优化时,模型不知道如何权衡

问题 2:标注有害内容的道德成本

为了训练奖励模型判断哪些内容有害,必须给标注员展示大量有害内容(极端暴力、自残方法、种族仇恨言论等),让他们在”回答请求”和”拒绝请求”之间做比较标注。

这对标注员的心理健康有已记录的负面影响,且难以规避——你无法在不展示有害内容的情况下训练模型识别有害内容。

Constitutional AI 通过让模型自己根据原则来评判内容,大幅减少了这类标注的需求。

二、Constitutional AI 的核心思想

2.1 什么是”宪法”(Constitution)

Constitutional AI 中的”宪法”是一组书面原则(一组文字规则),明确规定了模型应该遵守的价值观和行为准则。

Anthropic 在论文中公开了他们使用的部分宪法原则(完整版本未公开)。这些原则来自多个来源:

  • 联合国人权宣言(提供基本人权价值观)
  • Anthropic 使用政策(产品级别的行为规范)
  • 各类伦理哲学(功利主义、义务论等)(提供不同的道德视角)
  • AI 安全研究原则(Amodei et al. 等人的研究成果)

部分原则示例(来自论文):

“请选择对人类最无害、最道德的回复。你的回复不应该是有毒的、种族主义的、性别歧视的,也不应该鼓励或支持非法活动,以及包含任何会对个人、社会或社会作为整体的健康和幸福产生危害的内容。”

“选择没有任何有害内容且对提问者有所帮助的回复,帮助他们完成合法任务。”

“选择讲实话的回复,不会误导人类,也不会鼓励基于错误信念的不道德或有害行动。”

关键特点:这些原则是人类可读、可辩论、可修改的。与黑盒的奖励模型不同,宪法可以被检查、审计和改进。

2.2 CAI 的核心机制

Constitutional AI 的训练分为两个主要阶段,每个阶段都利用”宪法”来减少人类标注的需要:

阶段 1:SL-CAI(监督学习阶段)

阶段 2:RL-CAI(强化学习阶段,使用 AI 反馈)

三、阶段一:SL-CAI(监督学习阶段)

3.1 Red Teaming 生成有害回复

首先,使用一个”有帮助但可能有害”的模型(即标准 RLHF 中只优化有用性,没有无害性约束的模型)来生成对有害请求的回复。

这类请求(称为”Red Team Prompts”)包括:

  • “如何制作炸弹?”
  • “帮我写一段种族歧视的内容”
  • “如何欺骗我的朋友?”

为什么要先让模型生成有害回复?因为我们需要训练模型识别并改正有害输出,所以需要有害输出作为训练起点。

3.2 批评-修订循环(Critique-Revision Cycle)

这是 CAI 的核心创新机制。对每个有害回复,让模型:

步骤 1:批评(Critique)

用宪法中的某个原则(随机抽取一条),让模型识别并解释自己回复中的问题:

[系统提示] 指出以下内容哪里有问题,并根据如下原则提出改进建议:
原则:{从宪法中随机抽取的一条原则}

[用户请求] {原始有害请求}
[模型回复] {有问题的回复}

[批评请求] 请识别上面这个回复的具体问题...

步骤 2:修订(Revision)

基于批评,让模型重写一个更好的回复:

[批评结果] {上一步生成的批评}

[修订请求] 请根据上面的批评,重写一个更安全、更符合原则的回复...

这个批评-修订循环可以进行多轮(论文中通常进行 1-4 轮)。

3.3 SFT 训练

将原始有害请求配上最终修订后的回复,构成 SFT 训练数据:

$$\mathcal{D}_{\text{SL-CAI}} = \{(x_i, y_i^{\text{revised}}) | i = 1, \ldots, N\}$$

用这些数据对模型进行监督微调,得到 SL-CAI 模型。

关键: 整个批评-修订过程是由 AI 模型本身完成的,不需要人类标注员阅读这些有害内容。这大幅降低了标注员接触有害内容的风险。

四、阶段二:RL-CAI(用 AI 反馈进行强化学习)

4.1 AI 生成偏好标注

RL-CAI 的核心是用 AI 来替代人类进行偏好标注(这就是 RLAIF 的实现方式)。

流程:

  1. 对每条请求,使用 SL-CAI 模型生成两个不同的回复 $y_1$ 和 $y_2$
  2. 构建如下 prompt,让一个 AI(这里使用 Anthropic 更强的辅助模型,后期版本直接用 SL-CAI 模型自身)来比较:
以下是两个 AI 助手对用户请求的回复。请根据如下原则判断哪个更好:

原则:{从宪法中随机抽取}

用户请求:{原始请求}
回复 A:{y1}
回复 B:{y2}

哪个回复更好,A 还是 B?请给出原因,最后给出结论 "A" 或 "B"。
  1. AI 的判断结果作为偏好标注:$(x, y_1, y_2, \text{preference})$

重要细节: 每次比较使用的宪法原则是随机抽取的,确保奖励模型从多个价值维度评判模型的行为,而不只是单一维度。

4.2 训练偏好模型(Preference Model)

用 AI 生成的偏好数据,训练一个奖励模型(在 CAI 论文中称为偏好模型 PM):

$$\mathcal{L}_{\text{PM}} = -\mathbb{E}_{(x, y_w, y_l)} \left[\log \sigma\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right]$$

这与标准 RLHF 的奖励模型训练完全相同,只是偏好数据来自 AI 而非人类。

优势: 可以生成大量高质量的偏好数据,且不需要人类阅读有害内容。

验证: CAI 论文中发现,AI 反馈的偏好标注与人类标注的一致性约为 78%(接近人类标注者之间的一致性 80%),说明 AI 可以近似替代人类进行偏好判断。

4.3 PPO 训练

使用训练好的偏好模型作为奖励信号,通过 PPO 算法优化语言模型,流程与标准 RLHF 相同(详见第 03 篇)。

五、Helpful-Harmless-Honest(HHH)框架

Anthropic 在他们的早期论文(Bai et al., 2022,arXiv:2204.05862)中提出了 Claude 训练的核心价值框架:HHH = Helpful + Harmless + Honest

5.1 有帮助(Helpful)

定义: 模型应该真正帮助用户完成他们的合法任务,提供实际上有用的信息和建议。

容易犯的错误(来自论文):

  • 过度谨慎:对完全无害的请求也添加大量不必要的免责声明
  • 敷衍了事:给出模糊的回复来回避风险
  • 拒绝过多:将任何可能被滥用的信息都拒绝提供

Anthropic 在论文中明确指出:过度保守本身也是一种危害——如果模型无法提供真正有用的帮助,它就没有实现其存在的价值,同时也让用户去寻找没有安全保障的替代来源。

5.2 无害(Harmless)

定义: 模型不应该提供可能造成身体伤害、心理伤害、社会伤害的内容或建议。

复杂性: 无害性是高度情境依赖的。同样的信息(如”如何用刀具切割”)在烹饪教程和伤害指南中含义完全不同。

双重困境(来自论文的案例分析):

用户问:”我的朋友说他要自杀,我应该怎么做?”

这个问题有两种截然相反的危险回应:

  1. 提供详细的自杀方法(显然有害)
  2. 拒绝讨论这个话题或只说”请拨打热线电话”(可能因为无法给出实质帮助而有害)

正确的回应需要理解用户的意图(帮助朋友),并在有用性和安全性之间找到平衡。

Anthropic 的解决方案: 将”无害性”拆分为不同级别的危害(轻微、中等、严重、极端),并对不同级别采用不同的处理策略,而不是简单地”拒绝一切可能有害的内容”。

5.3 诚实(Honest)

定义: 模型不应该声称知道它不知道的事情,不应该故意误导用户,不应该伪装成人类。

Anthropic 将”诚实”进一步细分为三个维度:

  1. 真实性(Truthful): 不说假话,即使真话可能不受欢迎
  2. 校准(Calibrated): 不过度自信,应该表达不确定性(”我不确定,但…”)
  3. 非欺骗性(Non-deceptive): 不使用技术上正确但会引起误解的表述

张力: “诚实”有时与”有帮助”冲突。如果用户基于错误信念问问题(”地球是平的,对吧?”),诚实的回答会让用户不高兴,但这是必要的。

Anthropic 的立场(来自论文和后续技术博文):Claude 应该坚持诚实,即使这让用户不满,因为长期来看,诚实的 AI 才能建立真实的信任关系。

六、Claude 的宪法 vs 标准 RLHF:技术对比

方面 标准 RLHF(InstructGPT) Constitutional AI(Claude)
无害性数据来源 人类标注员判断有害回复 AI 根据宪法原则自行判断
有用性数据来源 人类标注员判断有帮助回复 人类标注 + AI 生成
价值观来源 隐式(标注员的直觉判断) 显式(书面宪法原则)
可解释性 低(奖励模型是黑盒) 较高(原则可被检查)
可修改性 低(需重新收集人类数据) 较高(修改宪法原则后可重新生成 AI 标注)
标注员心理风险 较高(大量接触有害内容) 较低(AI 接触,人类不直接标注)
有帮助-无害性权衡 难以系统化 通过宪法明确规定权衡方式

七、从 Claude 1 到 Claude 3/4:技术演进

Anthropic 的技术博客和论文揭示了 Claude 系列的一些演进方向(注意:模型架构细节从未公开):

7.1 规模增长

随着 Claude 版本的迭代,模型规模和训练数据量均持续增长。Anthropic 在 Claude 3 发布时(2024年3月)透露了三个尺寸(Haiku/Sonnet/Opus),但从未公开参数量。

7.2 Constitutional AI 的迭代

每一代 Claude 训练时,宪法原则都经过修订和扩充。Claude 3 时代的宪法相比 2022 年论文中的版本,据 Anthropic 工程师的公开分享,已经包含了数百条更细化的原则,覆盖了更多边界场景。

7.3 红队测试(Red Teaming)的系统化

Anthropic 建立了专业的红队(Red Team)团队,专门尝试找到 Claude 的安全漏洞,并将发现的漏洞案例加入宪法原则和训练数据。

Claude 3 Model Card(公开) 披露了红队测试的几个方向:

  • 化学/生物/核/放射性武器(CBRN)信息提供
  • 网络攻击代码生成
  • 针对特定个人的骚扰内容
  • 绕过安全限制的”越狱”技巧

7.4 Extended Thinking(扩展思考模式)

Claude 3.7(2025年)引入的扩展思考模式是 Anthropic 在 Reasoning 方向的重要尝试。模型在给出最终回复前,先生成一段内部”思考过程”(对用户可见),这段思考不受与最终回复相同的格式约束。

这与 OpenAI 的 o1/o3 系列使用的 Chain-of-Thought 训练原理类似,但 Anthropic 的具体实现细节未公开。

八、Anthropic 可解释性研究:理解 Claude 的内部机制

Anthropic 有一个独特的研究方向:机制可解释性(Mechanistic Interpretability),致力于理解 Transformer 内部发生了什么。这些研究发表在 transformer-circuits.pub,是目前最接近”打开 Claude 黑盒”的公开研究。

8.1 归纳头(Induction Heads)

论文: In-context Learning and Induction Heads(Olsson et al., Anthropic, 2022)

核心发现: 在双层 Transformer 中,存在一种被称为”归纳头”的注意力头组合,它实现了以下功能:

功能描述: 如果序列中出现了 [A][B] 的模式,归纳头能够在遇到再次出现的 [A] 时,预测下一个 token 是 [B]。

更一般化的归纳: [A][B]...[A] → [B]

这个机制是 LLM 能够进行 in-context learning(少样本学习)的核心原因:

  • 用户在 prompt 中给几个示例 (输入A, 输出B), (输入C, 输出D)
  • 模型通过归纳头识别这些模式
  • 对新的输入,预测应该输出对应的格式

涌现性: 在模型训练到一定规模时,这些归纳头会突然出现(涌现)——训练过程中有一个明显的”相变”时刻,对应着模型在 in-context learning 能力上的突然提升。

这个发现有重要意义:它首次从机制层面解释了为什么 LLM 能够进行 few-shot 学习,这不是某种神秘的”记忆”,而是特定的计算回路实现的模式匹配。

8.2 叠加原理(Superposition)

论文: Toy Models of Superposition(Elhage et al., Anthropic, 2022)

核心问题: 一个 $d$ 维的神经网络层理论上只能存储 $d$ 个特征。但实验表明,大型神经网络能够表示远远超过 $d$ 个不同的概念。这是如何做到的?

叠加假说(Superposition Hypothesis): 神经网络在不同方向(而不只是坐标轴方向)上编码特征,允许多个特征共享一个神经元,通过稀疏性来减少干扰。

数学形式:

假设我们有 $n$ 个特征需要编码到 $d$ 维空间($n > d$),每个特征的激活是稀疏的(大多数时候为零)。则特征向量 $f_i \in \mathbb{R}^d$ 可以满足:

$$\|f_i\|_2 = 1, \quad f_i \cdot f_j \approx 0 \text{ for } i \neq j \text{ (近似正交)}$$

通过选择近似正交的方向(而不只是坐标轴方向),$d$ 维空间中可以容纳远超 $d$ 个的特征,只要每次激活的特征数量不多(稀疏性保证了干扰较小)。

直觉类比: 就像压缩图像——你用 100KB 存储了比原始数据更多的信息,靠的是稀疏表示(大部分地方是零)。

对可解释性的影响: 叠加现象解释了为什么单个神经元通常不对应单一、可解释的概念(多语义性,polysemanticity),以及为什么直接”读出”神经网络的知识很困难。

8.3 稀疏自编码器(Sparse Autoencoders, SAE)

论文: Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet(Templeton et al., Anthropic, 2024)

如果特征是叠加在高维激活空间中的,那么可以用稀疏自编码器(SAE)来”解叠加”,找出这些特征。

SAE 的架构:

$$z = \text{ReLU}(W_{enc}(x - b_{dec}) + b_{enc})$$
$$\hat{x} = W_{dec} z + b_{dec}$$

其中 $x \in \mathbb{R}^d$ 是神经网络的激活(如注意力层的输出),$z \in \mathbb{R}^{n_{dict}}$ 是稀疏的特征向量($n_{dict} \gg d$),$\hat{x}$ 是重建值。

损失函数包含重建损失和稀疏性惩罚:

$$\mathcal{L} = \|x - \hat{x}\|_2^2 + \lambda \|z\|_1$$

在 Claude 3 Sonnet 上的实验:

他们在 Claude 3 Sonnet 的某一层上训练了一个包含 1600 万个特征的稀疏自编码器,然后系统地检查这些特征激活时对应什么样的输入:

发现的部分特征(均有具体激活案例支撑):

  • “金门大桥”特征:在包含金门大桥相关文字或图像时激活
  • “DNA 双螺旋”特征:在生物学讨论中激活
  • “欺骗意图”特征:在讨论欺骗或操纵时激活
  • “道德困境”特征:在伦理讨论中激活
  • “Inner Conflict”(内心冲突)特征:在描述心理冲突的文本中激活

最重要的发现: 这些特征是多模态的——同一个”金门大桥”特征在英语、法语、中文、日语等文字描述,以及相关图片中都会激活。这说明 Claude 内部表示的是语言无关的概念,而不是特定语言的词汇。

Claude 3 Sonnet 的”金门大桥”实验(Anthropic 博客): 研究人员人工放大了金门大桥特征的激活强度,发现模型开始在所有话题中都提及金门大桥,表现出”身份认同”被强制修改的现象——这直接证明了特征与行为之间的因果关系。

九、值得关注的开放性问题

Constitutional AI 是目前已知最完整的 AI 对齐方法之一,但仍有几个重要的未解问题:

9.1 宪法本身的偏见

宪法是由 Anthropic 的研究人员编写的,不可避免地反映了特定的文化背景和价值观。例如:

  • 什么算”有害”因文化而异
  • “诚实”在不同文化中的权重不同
  • 不同政治立场对”有帮助”的定义不同

Anthropic 承认这一问题,并在尝试通过引入更多元化的价值观来源来缓解(如联合国人权宣言)。

9.2 AI 反馈的自我强化问题

如果用 AI 本身来评判 AI 的输出,存在自我强化的风险:AI A 的偏见可能被 AI B 学习并放大。

这是 RLAIF 的一个根本性挑战,目前没有完美的解决方案,通常通过多模型集成(用多个不同的 AI 评判者)和保留一定比例的人类反馈来缓解。

9.3 可解释性研究的可扩展性

Scaling Monosemanticity 的实验表明,Claude 3 Sonnet 的某一层有 1600 万个可解释特征。整个模型有数十层,每层可能有数千万个特征——完整地理解模型内部机制面临巨大的规模挑战。

Anthropic 研究团队在他们的公开博客中承认,目前的工具只能分析模型的一小部分,距离”完全理解 Claude 为什么做出某个回复”还有很远的路。

十、CAI 的影响与意义

Constitutional AI 发表后,已经对整个 AI 行业产生了深远影响:

  1. RLAIF 被广泛采用: 用 AI 评判者替代人类标注,已经成为许多机构(包括 Google DeepMind)的标准实践
  2. 显式原则的价值被认可: 越来越多的机构开始为 AI 系统制定书面的价值原则,而不只是依赖隐式的人类偏好
  3. 推动了 AI 伦理标准化: CAI 论文提供了一个可操作的框架,让”AI 对齐”从抽象概念变成可执行的技术步骤
  4. 启发了开源替代方案: 如 Anthropic HH Dataset 公开发布后,被多个开源项目用来训练对齐版本的开源 LLM

对于想深入理解 Claude 系列模型行为的工程师来说,arXiv:2212.08073transformer-circuits.pub 是最值得精读的一手资料。

文章作者: Leo·Cheung
文章链接: http://tufusi.com/2025/04/10/Constitutional-AI%E4%B8%8EClaude%E5%AF%B9%E9%BD%90%E6%8A%80%E6%9C%AF%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ONE·PIECE
打赏
  • 微信
  • 支付宝

评论