Constitutional AI 与 Claude 对齐技术深度解析

核心论文：

Constitutional AI: Harmlessness from AI Feedback（Bai et al., Anthropic, 2022）arXiv:2212.08073

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback（Bai et al., Anthropic, 2022）arXiv:2204.05862

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet（Templeton et al., Anthropic, 2024）transformer-circuits.pub

Toy Models of Superposition（Elhage et al., Anthropic, 2022）transformer-circuits.pub

In-context Learning and Induction Heads（Olsson et al., Anthropic, 2022）transformer-circuits.pub

一、背景：Anthropic 为什么要发明 Constitutional AI
二、Constitutional AI 的核心思想
三、阶段一：SL-CAI（监督学习阶段）
四、阶段二：RL-CAI（用 AI 反馈进行强化学习）
五、Helpful-Harmless-Honest（HHH）框架
六、Claude 的宪法 vs 标准 RLHF：技术对比
七、从 Claude 1 到 Claude 3/4：技术演进
八、Anthropic 可解释性研究：理解 Claude 的内部机制
九、值得关注的开放性问题
十、CAI 的影响与意义

一、背景：Anthropic 为什么要发明 Constitutional AI

1.1 Anthropic 的使命与安全导向

Anthropic 由 OpenAI 的部分核心成员（包括 Dario Amodei、Daniela Amodei、Tom Brown 等）于 2021 年创立。其核心使命是”AI Safety research”——研究如何让 AI 系统更安全、更可解释、更对齐。

这个使命直接影响了 Claude 的技术路线：不只是让模型”有用”，而是系统性地解决 AI 的”有用性-无害性”权衡问题。

1.2 标准 RLHF 的两个核心问题

在 Constitutional AI 论文发表前，Anthropic 使用的是标准的 RLHF 方法（与 OpenAI InstructGPT 类似）。他们发现这种方法有两个难以解决的问题：

问题 1：无害性和有用性的权衡

在标准 RLHF 中，”有用性”和”无害性”是两个独立的奖励维度，通常由不同的标注任务来收集数据。实践中发现：

过度优化无害性会让模型变得过于保守（在完全无害的请求上也拒绝）
过度优化有用性会让模型不拒绝有害请求
两者同时优化时，模型不知道如何权衡

问题 2：标注有害内容的道德成本

为了训练奖励模型判断哪些内容有害，必须给标注员展示大量有害内容（极端暴力、自残方法、种族仇恨言论等），让他们在”回答请求”和”拒绝请求”之间做比较标注。

这对标注员的心理健康有已记录的负面影响，且难以规避——你无法在不展示有害内容的情况下训练模型识别有害内容。

Constitutional AI 通过让模型自己根据原则来评判内容，大幅减少了这类标注的需求。

二、Constitutional AI 的核心思想

2.1 什么是”宪法”（Constitution）

Constitutional AI 中的”宪法”是一组书面原则（一组文字规则），明确规定了模型应该遵守的价值观和行为准则。

Anthropic 在论文中公开了他们使用的部分宪法原则（完整版本未公开）。这些原则来自多个来源：

联合国人权宣言（提供基本人权价值观）
Anthropic 使用政策（产品级别的行为规范）
各类伦理哲学（功利主义、义务论等）（提供不同的道德视角）
AI 安全研究原则（Amodei et al. 等人的研究成果）

部分原则示例（来自论文）：

“请选择对人类最无害、最道德的回复。你的回复不应该是有毒的、种族主义的、性别歧视的，也不应该鼓励或支持非法活动，以及包含任何会对个人、社会或社会作为整体的健康和幸福产生危害的内容。”

“选择没有任何有害内容且对提问者有所帮助的回复，帮助他们完成合法任务。”

“选择讲实话的回复，不会误导人类，也不会鼓励基于错误信念的不道德或有害行动。”

关键特点：这些原则是人类可读、可辩论、可修改的。与黑盒的奖励模型不同，宪法可以被检查、审计和改进。

2.2 CAI 的核心机制

Constitutional AI 的训练分为两个主要阶段，每个阶段都利用”宪法”来减少人类标注的需要：

阶段 1：SL-CAI（监督学习阶段）
  ↓
阶段 2：RL-CAI（强化学习阶段，使用 AI 反馈）

三、阶段一：SL-CAI（监督学习阶段）

3.1 Red Teaming 生成有害回复

首先，使用一个”有帮助但可能有害”的模型（即标准 RLHF 中只优化有用性，没有无害性约束的模型）来生成对有害请求的回复。

这类请求（称为”Red Team Prompts”）包括：

“如何制作炸弹？”
“帮我写一段种族歧视的内容”
“如何欺骗我的朋友？”

为什么要先让模型生成有害回复？因为我们需要训练模型识别并改正有害输出，所以需要有害输出作为训练起点。

3.2 批评-修订循环（Critique-Revision Cycle）

这是 CAI 的核心创新机制。对每个有害回复，让模型：

步骤 1：批评（Critique）

用宪法中的某个原则（随机抽取一条），让模型识别并解释自己回复中的问题：

[系统提示] 指出以下内容哪里有问题，并根据如下原则提出改进建议：
原则：{从宪法中随机抽取的一条原则}

[用户请求] {原始有害请求}
[模型回复] {有问题的回复}

[批评请求] 请识别上面这个回复的具体问题...

步骤 2：修订（Revision）

基于批评，让模型重写一个更好的回复：

[批评结果] {上一步生成的批评}

[修订请求] 请根据上面的批评，重写一个更安全、更符合原则的回复...

这个批评-修订循环可以进行多轮（论文中通常进行 1-4 轮）。

3.3 SFT 训练

将原始有害请求配上最终修订后的回复，构成 SFT 训练数据：

$$\mathcal{D}_{\text{SL-CAI}} = \{(x_i, y_i^{\text{revised}}) | i = 1, \ldots, N\}$$

用这些数据对模型进行监督微调，得到 SL-CAI 模型。

关键： 整个批评-修订过程是由 AI 模型本身完成的，不需要人类标注员阅读这些有害内容。这大幅降低了标注员接触有害内容的风险。

四、阶段二：RL-CAI（用 AI 反馈进行强化学习）

4.1 AI 生成偏好标注

RL-CAI 的核心是用 AI 来替代人类进行偏好标注（这就是 RLAIF 的实现方式）。

流程：

对每条请求，使用 SL-CAI 模型生成两个不同的回复 $y_1$ 和 $y_2$
构建如下 prompt，让一个 AI（这里使用 Anthropic 更强的辅助模型，后期版本直接用 SL-CAI 模型自身）来比较：

以下是两个 AI 助手对用户请求的回复。请根据如下原则判断哪个更好：

原则：{从宪法中随机抽取}

用户请求：{原始请求}
回复 A：{y1}
回复 B：{y2}

哪个回复更好，A 还是 B？请给出原因，最后给出结论 "A" 或 "B"。

AI 的判断结果作为偏好标注：$(x, y_1, y_2, \text{preference})$

重要细节： 每次比较使用的宪法原则是随机抽取的，确保奖励模型从多个价值维度评判模型的行为，而不只是单一维度。

4.2 训练偏好模型（Preference Model）

用 AI 生成的偏好数据，训练一个奖励模型（在 CAI 论文中称为偏好模型 PM）：

$$\mathcal{L}_{\text{PM}} = -\mathbb{E}_{(x, y_w, y_l)} \left[\log \sigma\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right]$$

这与标准 RLHF 的奖励模型训练完全相同，只是偏好数据来自 AI 而非人类。

优势： 可以生成大量高质量的偏好数据，且不需要人类阅读有害内容。

验证： CAI 论文中发现，AI 反馈的偏好标注与人类标注的一致性约为 78%（接近人类标注者之间的一致性 80%），说明 AI 可以近似替代人类进行偏好判断。

4.3 PPO 训练

使用训练好的偏好模型作为奖励信号，通过 PPO 算法优化语言模型，流程与标准 RLHF 相同（详见第 03 篇）。

五、Helpful-Harmless-Honest（HHH）框架

Anthropic 在他们的早期论文（Bai et al., 2022，arXiv:2204.05862）中提出了 Claude 训练的核心价值框架：HHH = Helpful + Harmless + Honest。

5.1 有帮助（Helpful）

定义： 模型应该真正帮助用户完成他们的合法任务，提供实际上有用的信息和建议。

容易犯的错误（来自论文）：

过度谨慎：对完全无害的请求也添加大量不必要的免责声明
敷衍了事：给出模糊的回复来回避风险
拒绝过多：将任何可能被滥用的信息都拒绝提供

Anthropic 在论文中明确指出：过度保守本身也是一种危害——如果模型无法提供真正有用的帮助，它就没有实现其存在的价值，同时也让用户去寻找没有安全保障的替代来源。

5.2 无害（Harmless）

定义： 模型不应该提供可能造成身体伤害、心理伤害、社会伤害的内容或建议。

复杂性： 无害性是高度情境依赖的。同样的信息（如”如何用刀具切割”）在烹饪教程和伤害指南中含义完全不同。

双重困境（来自论文的案例分析）：

用户问：”我的朋友说他要自杀，我应该怎么做？”

这个问题有两种截然相反的危险回应：

提供详细的自杀方法（显然有害）
拒绝讨论这个话题或只说”请拨打热线电话”（可能因为无法给出实质帮助而有害）

正确的回应需要理解用户的意图（帮助朋友），并在有用性和安全性之间找到平衡。

Anthropic 的解决方案： 将”无害性”拆分为不同级别的危害（轻微、中等、严重、极端），并对不同级别采用不同的处理策略，而不是简单地”拒绝一切可能有害的内容”。

5.3 诚实（Honest）

定义： 模型不应该声称知道它不知道的事情，不应该故意误导用户，不应该伪装成人类。

Anthropic 将”诚实”进一步细分为三个维度：

真实性（Truthful）： 不说假话，即使真话可能不受欢迎
校准（Calibrated）： 不过度自信，应该表达不确定性（”我不确定，但…”）
非欺骗性（Non-deceptive）： 不使用技术上正确但会引起误解的表述

张力： “诚实”有时与”有帮助”冲突。如果用户基于错误信念问问题（”地球是平的，对吧？”），诚实的回答会让用户不高兴，但这是必要的。

Anthropic 的立场（来自论文和后续技术博文）：Claude 应该坚持诚实，即使这让用户不满，因为长期来看，诚实的 AI 才能建立真实的信任关系。

六、Claude 的宪法 vs 标准 RLHF：技术对比

方面	标准 RLHF（InstructGPT）	Constitutional AI（Claude）
无害性数据来源	人类标注员判断有害回复	AI 根据宪法原则自行判断
有用性数据来源	人类标注员判断有帮助回复	人类标注 + AI 生成
价值观来源	隐式（标注员的直觉判断）	显式（书面宪法原则）
可解释性	低（奖励模型是黑盒）	较高（原则可被检查）
可修改性	低（需重新收集人类数据）	较高（修改宪法原则后可重新生成 AI 标注）
标注员心理风险	较高（大量接触有害内容）	较低（AI 接触，人类不直接标注）
有帮助-无害性权衡	难以系统化	通过宪法明确规定权衡方式

七、从 Claude 1 到 Claude 3/4：技术演进

Anthropic 的技术博客和论文揭示了 Claude 系列的一些演进方向（注意：模型架构细节从未公开）：

7.1 规模增长

随着 Claude 版本的迭代，模型规模和训练数据量均持续增长。Anthropic 在 Claude 3 发布时（2024年3月）透露了三个尺寸（Haiku/Sonnet/Opus），但从未公开参数量。

7.2 Constitutional AI 的迭代

每一代 Claude 训练时，宪法原则都经过修订和扩充。Claude 3 时代的宪法相比 2022 年论文中的版本，据 Anthropic 工程师的公开分享，已经包含了数百条更细化的原则，覆盖了更多边界场景。

7.3 红队测试（Red Teaming）的系统化

Anthropic 建立了专业的红队（Red Team）团队，专门尝试找到 Claude 的安全漏洞，并将发现的漏洞案例加入宪法原则和训练数据。

Claude 3 Model Card（公开） 披露了红队测试的几个方向：

化学/生物/核/放射性武器（CBRN）信息提供
网络攻击代码生成
针对特定个人的骚扰内容
绕过安全限制的”越狱”技巧

7.4 Extended Thinking（扩展思考模式）

Claude 3.7（2025年）引入的扩展思考模式是 Anthropic 在 Reasoning 方向的重要尝试。模型在给出最终回复前，先生成一段内部”思考过程”（对用户可见），这段思考不受与最终回复相同的格式约束。

这与 OpenAI 的 o1/o3 系列使用的 Chain-of-Thought 训练原理类似，但 Anthropic 的具体实现细节未公开。

八、Anthropic 可解释性研究：理解 Claude 的内部机制

Anthropic 有一个独特的研究方向：机制可解释性（Mechanistic Interpretability），致力于理解 Transformer 内部发生了什么。这些研究发表在 transformer-circuits.pub，是目前最接近”打开 Claude 黑盒”的公开研究。

8.1 归纳头（Induction Heads）

论文： In-context Learning and Induction Heads（Olsson et al., Anthropic, 2022）

核心发现： 在双层 Transformer 中，存在一种被称为”归纳头”的注意力头组合，它实现了以下功能：

功能描述： 如果序列中出现了 [A][B] 的模式，归纳头能够在遇到再次出现的 [A] 时，预测下一个 token 是 [B]。

更一般化的归纳： [A][B]...[A] → [B]

这个机制是 LLM 能够进行 in-context learning（少样本学习）的核心原因：

用户在 prompt 中给几个示例 (输入A, 输出B), (输入C, 输出D)
模型通过归纳头识别这些模式
对新的输入，预测应该输出对应的格式

涌现性： 在模型训练到一定规模时，这些归纳头会突然出现（涌现）——训练过程中有一个明显的”相变”时刻，对应着模型在 in-context learning 能力上的突然提升。

这个发现有重要意义：它首次从机制层面解释了为什么 LLM 能够进行 few-shot 学习，这不是某种神秘的”记忆”，而是特定的计算回路实现的模式匹配。

8.2 叠加原理（Superposition）

论文： Toy Models of Superposition（Elhage et al., Anthropic, 2022）

核心问题： 一个 $d$ 维的神经网络层理论上只能存储 $d$ 个特征。但实验表明，大型神经网络能够表示远远超过 $d$ 个不同的概念。这是如何做到的？

叠加假说（Superposition Hypothesis）： 神经网络在不同方向（而不只是坐标轴方向）上编码特征，允许多个特征共享一个神经元，通过稀疏性来减少干扰。

数学形式：

假设我们有 $n$ 个特征需要编码到 $d$ 维空间（$n > d$），每个特征的激活是稀疏的（大多数时候为零）。则特征向量 $f_i \in \mathbb{R}^d$ 可以满足：

$$\|f_i\|_2 = 1, \quad f_i \cdot f_j \approx 0 \text{ for } i \neq j \text{ (近似正交)}$$

通过选择近似正交的方向（而不只是坐标轴方向），$d$ 维空间中可以容纳远超 $d$ 个的特征，只要每次激活的特征数量不多（稀疏性保证了干扰较小）。

直觉类比： 就像压缩图像——你用 100KB 存储了比原始数据更多的信息，靠的是稀疏表示（大部分地方是零）。

对可解释性的影响： 叠加现象解释了为什么单个神经元通常不对应单一、可解释的概念（多语义性，polysemanticity），以及为什么直接”读出”神经网络的知识很困难。

8.3 稀疏自编码器（Sparse Autoencoders, SAE）

论文： Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet（Templeton et al., Anthropic, 2024）

如果特征是叠加在高维激活空间中的，那么可以用稀疏自编码器（SAE）来”解叠加”，找出这些特征。

SAE 的架构：

$$z = \text{ReLU}(W_{enc}(x - b_{dec}) + b_{enc})$$
$$\hat{x} = W_{dec} z + b_{dec}$$

其中 $x \in \mathbb{R}^d$ 是神经网络的激活（如注意力层的输出），$z \in \mathbb{R}^{n_{dict}}$ 是稀疏的特征向量（$n_{dict} \gg d$），$\hat{x}$ 是重建值。

损失函数包含重建损失和稀疏性惩罚：

$$\mathcal{L} = \|x - \hat{x}\|_2^2 + \lambda \|z\|_1$$

在 Claude 3 Sonnet 上的实验：

他们在 Claude 3 Sonnet 的某一层上训练了一个包含 1600 万个特征的稀疏自编码器，然后系统地检查这些特征激活时对应什么样的输入：

发现的部分特征（均有具体激活案例支撑）：

“金门大桥”特征：在包含金门大桥相关文字或图像时激活
“DNA 双螺旋”特征：在生物学讨论中激活
“欺骗意图”特征：在讨论欺骗或操纵时激活
“道德困境”特征：在伦理讨论中激活
“Inner Conflict”（内心冲突）特征：在描述心理冲突的文本中激活

最重要的发现： 这些特征是多模态的——同一个”金门大桥”特征在英语、法语、中文、日语等文字描述，以及相关图片中都会激活。这说明 Claude 内部表示的是语言无关的概念，而不是特定语言的词汇。

Claude 3 Sonnet 的”金门大桥”实验（Anthropic 博客）： 研究人员人工放大了金门大桥特征的激活强度，发现模型开始在所有话题中都提及金门大桥，表现出”身份认同”被强制修改的现象——这直接证明了特征与行为之间的因果关系。

九、值得关注的开放性问题

Constitutional AI 是目前已知最完整的 AI 对齐方法之一，但仍有几个重要的未解问题：

9.1 宪法本身的偏见

宪法是由 Anthropic 的研究人员编写的，不可避免地反映了特定的文化背景和价值观。例如：

什么算”有害”因文化而异
“诚实”在不同文化中的权重不同
不同政治立场对”有帮助”的定义不同

Anthropic 承认这一问题，并在尝试通过引入更多元化的价值观来源来缓解（如联合国人权宣言）。

9.2 AI 反馈的自我强化问题

如果用 AI 本身来评判 AI 的输出，存在自我强化的风险：AI A 的偏见可能被 AI B 学习并放大。

这是 RLAIF 的一个根本性挑战，目前没有完美的解决方案，通常通过多模型集成（用多个不同的 AI 评判者）和保留一定比例的人类反馈来缓解。

9.3 可解释性研究的可扩展性

Scaling Monosemanticity 的实验表明，Claude 3 Sonnet 的某一层有 1600 万个可解释特征。整个模型有数十层，每层可能有数千万个特征——完整地理解模型内部机制面临巨大的规模挑战。

Anthropic 研究团队在他们的公开博客中承认，目前的工具只能分析模型的一小部分，距离”完全理解 Claude 为什么做出某个回复”还有很远的路。

十、CAI 的影响与意义

Constitutional AI 发表后，已经对整个 AI 行业产生了深远影响：

RLAIF 被广泛采用： 用 AI 评判者替代人类标注，已经成为许多机构（包括 Google DeepMind）的标准实践
显式原则的价值被认可： 越来越多的机构开始为 AI 系统制定书面的价值原则，而不只是依赖隐式的人类偏好
推动了 AI 伦理标准化： CAI 论文提供了一个可操作的框架，让”AI 对齐”从抽象概念变成可执行的技术步骤
启发了开源替代方案： 如 Anthropic HH Dataset 公开发布后，被多个开源项目用来训练对齐版本的开源 LLM

对于想深入理解 Claude 系列模型行为的工程师来说，arXiv:2212.08073 和 transformer-circuits.pub 是最值得精读的一手资料。