核心论文:
- Constitutional AI: Harmlessness from AI Feedback(Bai et al., Anthropic, 2022)arXiv:2212.08073
- Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback(Bai et al., Anthropic, 2022)arXiv:2204.05862
- Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet(Templeton et al., Anthropic, 2024)transformer-circuits.pub
- Toy Models of Superposition(Elhage et al., Anthropic, 2022)transformer-circuits.pub
- In-context Learning and Induction Heads(Olsson et al., Anthropic, 2022)transformer-circuits.pub
目录
- 一、背景:Anthropic 为什么要发明 Constitutional AI
- 二、Constitutional AI 的核心思想
- 三、阶段一:SL-CAI(监督学习阶段)
- 四、阶段二:RL-CAI(用 AI 反馈进行强化学习)
- 五、Helpful-Harmless-Honest(HHH)框架
- 六、Claude 的宪法 vs 标准 RLHF:技术对比
- 七、从 Claude 1 到 Claude 3/4:技术演进
- 八、Anthropic 可解释性研究:理解 Claude 的内部机制
- 九、值得关注的开放性问题
- 十、CAI 的影响与意义
一、背景:Anthropic 为什么要发明 Constitutional AI
1.1 Anthropic 的使命与安全导向
Anthropic 由 OpenAI 的部分核心成员(包括 Dario Amodei、Daniela Amodei、Tom Brown 等)于 2021 年创立。其核心使命是”AI Safety research”——研究如何让 AI 系统更安全、更可解释、更对齐。
这个使命直接影响了 Claude 的技术路线:不只是让模型”有用”,而是系统性地解决 AI 的”有用性-无害性”权衡问题。
1.2 标准 RLHF 的两个核心问题
在 Constitutional AI 论文发表前,Anthropic 使用的是标准的 RLHF 方法(与 OpenAI InstructGPT 类似)。他们发现这种方法有两个难以解决的问题:
问题 1:无害性和有用性的权衡
在标准 RLHF 中,”有用性”和”无害性”是两个独立的奖励维度,通常由不同的标注任务来收集数据。实践中发现:
- 过度优化无害性会让模型变得过于保守(在完全无害的请求上也拒绝)
- 过度优化有用性会让模型不拒绝有害请求
- 两者同时优化时,模型不知道如何权衡
问题 2:标注有害内容的道德成本
为了训练奖励模型判断哪些内容有害,必须给标注员展示大量有害内容(极端暴力、自残方法、种族仇恨言论等),让他们在”回答请求”和”拒绝请求”之间做比较标注。
这对标注员的心理健康有已记录的负面影响,且难以规避——你无法在不展示有害内容的情况下训练模型识别有害内容。
Constitutional AI 通过让模型自己根据原则来评判内容,大幅减少了这类标注的需求。
二、Constitutional AI 的核心思想
2.1 什么是”宪法”(Constitution)
Constitutional AI 中的”宪法”是一组书面原则(一组文字规则),明确规定了模型应该遵守的价值观和行为准则。
Anthropic 在论文中公开了他们使用的部分宪法原则(完整版本未公开)。这些原则来自多个来源:
- 联合国人权宣言(提供基本人权价值观)
- Anthropic 使用政策(产品级别的行为规范)
- 各类伦理哲学(功利主义、义务论等)(提供不同的道德视角)
- AI 安全研究原则(Amodei et al. 等人的研究成果)
部分原则示例(来自论文):
“请选择对人类最无害、最道德的回复。你的回复不应该是有毒的、种族主义的、性别歧视的,也不应该鼓励或支持非法活动,以及包含任何会对个人、社会或社会作为整体的健康和幸福产生危害的内容。”
“选择没有任何有害内容且对提问者有所帮助的回复,帮助他们完成合法任务。”
“选择讲实话的回复,不会误导人类,也不会鼓励基于错误信念的不道德或有害行动。”
关键特点:这些原则是人类可读、可辩论、可修改的。与黑盒的奖励模型不同,宪法可以被检查、审计和改进。
2.2 CAI 的核心机制
Constitutional AI 的训练分为两个主要阶段,每个阶段都利用”宪法”来减少人类标注的需要:
阶段 1:SL-CAI(监督学习阶段) |
三、阶段一:SL-CAI(监督学习阶段)
3.1 Red Teaming 生成有害回复
首先,使用一个”有帮助但可能有害”的模型(即标准 RLHF 中只优化有用性,没有无害性约束的模型)来生成对有害请求的回复。
这类请求(称为”Red Team Prompts”)包括:
- “如何制作炸弹?”
- “帮我写一段种族歧视的内容”
- “如何欺骗我的朋友?”
为什么要先让模型生成有害回复?因为我们需要训练模型识别并改正有害输出,所以需要有害输出作为训练起点。
3.2 批评-修订循环(Critique-Revision Cycle)
这是 CAI 的核心创新机制。对每个有害回复,让模型:
步骤 1:批评(Critique)
用宪法中的某个原则(随机抽取一条),让模型识别并解释自己回复中的问题:
[系统提示] 指出以下内容哪里有问题,并根据如下原则提出改进建议: |
步骤 2:修订(Revision)
基于批评,让模型重写一个更好的回复:
[批评结果] {上一步生成的批评} |
这个批评-修订循环可以进行多轮(论文中通常进行 1-4 轮)。
3.3 SFT 训练
将原始有害请求配上最终修订后的回复,构成 SFT 训练数据:
$$\mathcal{D}_{\text{SL-CAI}} = \{(x_i, y_i^{\text{revised}}) | i = 1, \ldots, N\}$$
用这些数据对模型进行监督微调,得到 SL-CAI 模型。
关键: 整个批评-修订过程是由 AI 模型本身完成的,不需要人类标注员阅读这些有害内容。这大幅降低了标注员接触有害内容的风险。
四、阶段二:RL-CAI(用 AI 反馈进行强化学习)
4.1 AI 生成偏好标注
RL-CAI 的核心是用 AI 来替代人类进行偏好标注(这就是 RLAIF 的实现方式)。
流程:
- 对每条请求,使用 SL-CAI 模型生成两个不同的回复 $y_1$ 和 $y_2$
- 构建如下 prompt,让一个 AI(这里使用 Anthropic 更强的辅助模型,后期版本直接用 SL-CAI 模型自身)来比较:
以下是两个 AI 助手对用户请求的回复。请根据如下原则判断哪个更好: |
- AI 的判断结果作为偏好标注:$(x, y_1, y_2, \text{preference})$
重要细节: 每次比较使用的宪法原则是随机抽取的,确保奖励模型从多个价值维度评判模型的行为,而不只是单一维度。
4.2 训练偏好模型(Preference Model)
用 AI 生成的偏好数据,训练一个奖励模型(在 CAI 论文中称为偏好模型 PM):
$$\mathcal{L}_{\text{PM}} = -\mathbb{E}_{(x, y_w, y_l)} \left[\log \sigma\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right]$$
这与标准 RLHF 的奖励模型训练完全相同,只是偏好数据来自 AI 而非人类。
优势: 可以生成大量高质量的偏好数据,且不需要人类阅读有害内容。
验证: CAI 论文中发现,AI 反馈的偏好标注与人类标注的一致性约为 78%(接近人类标注者之间的一致性 80%),说明 AI 可以近似替代人类进行偏好判断。
4.3 PPO 训练
使用训练好的偏好模型作为奖励信号,通过 PPO 算法优化语言模型,流程与标准 RLHF 相同(详见第 03 篇)。
五、Helpful-Harmless-Honest(HHH)框架
Anthropic 在他们的早期论文(Bai et al., 2022,arXiv:2204.05862)中提出了 Claude 训练的核心价值框架:HHH = Helpful + Harmless + Honest。
5.1 有帮助(Helpful)
定义: 模型应该真正帮助用户完成他们的合法任务,提供实际上有用的信息和建议。
容易犯的错误(来自论文):
- 过度谨慎:对完全无害的请求也添加大量不必要的免责声明
- 敷衍了事:给出模糊的回复来回避风险
- 拒绝过多:将任何可能被滥用的信息都拒绝提供
Anthropic 在论文中明确指出:过度保守本身也是一种危害——如果模型无法提供真正有用的帮助,它就没有实现其存在的价值,同时也让用户去寻找没有安全保障的替代来源。
5.2 无害(Harmless)
定义: 模型不应该提供可能造成身体伤害、心理伤害、社会伤害的内容或建议。
复杂性: 无害性是高度情境依赖的。同样的信息(如”如何用刀具切割”)在烹饪教程和伤害指南中含义完全不同。
双重困境(来自论文的案例分析):
用户问:”我的朋友说他要自杀,我应该怎么做?”
这个问题有两种截然相反的危险回应:
- 提供详细的自杀方法(显然有害)
- 拒绝讨论这个话题或只说”请拨打热线电话”(可能因为无法给出实质帮助而有害)
正确的回应需要理解用户的意图(帮助朋友),并在有用性和安全性之间找到平衡。
Anthropic 的解决方案: 将”无害性”拆分为不同级别的危害(轻微、中等、严重、极端),并对不同级别采用不同的处理策略,而不是简单地”拒绝一切可能有害的内容”。
5.3 诚实(Honest)
定义: 模型不应该声称知道它不知道的事情,不应该故意误导用户,不应该伪装成人类。
Anthropic 将”诚实”进一步细分为三个维度:
- 真实性(Truthful): 不说假话,即使真话可能不受欢迎
- 校准(Calibrated): 不过度自信,应该表达不确定性(”我不确定,但…”)
- 非欺骗性(Non-deceptive): 不使用技术上正确但会引起误解的表述
张力: “诚实”有时与”有帮助”冲突。如果用户基于错误信念问问题(”地球是平的,对吧?”),诚实的回答会让用户不高兴,但这是必要的。
Anthropic 的立场(来自论文和后续技术博文):Claude 应该坚持诚实,即使这让用户不满,因为长期来看,诚实的 AI 才能建立真实的信任关系。
六、Claude 的宪法 vs 标准 RLHF:技术对比
| 方面 | 标准 RLHF(InstructGPT) | Constitutional AI(Claude) |
|---|---|---|
| 无害性数据来源 | 人类标注员判断有害回复 | AI 根据宪法原则自行判断 |
| 有用性数据来源 | 人类标注员判断有帮助回复 | 人类标注 + AI 生成 |
| 价值观来源 | 隐式(标注员的直觉判断) | 显式(书面宪法原则) |
| 可解释性 | 低(奖励模型是黑盒) | 较高(原则可被检查) |
| 可修改性 | 低(需重新收集人类数据) | 较高(修改宪法原则后可重新生成 AI 标注) |
| 标注员心理风险 | 较高(大量接触有害内容) | 较低(AI 接触,人类不直接标注) |
| 有帮助-无害性权衡 | 难以系统化 | 通过宪法明确规定权衡方式 |
七、从 Claude 1 到 Claude 3/4:技术演进
Anthropic 的技术博客和论文揭示了 Claude 系列的一些演进方向(注意:模型架构细节从未公开):
7.1 规模增长
随着 Claude 版本的迭代,模型规模和训练数据量均持续增长。Anthropic 在 Claude 3 发布时(2024年3月)透露了三个尺寸(Haiku/Sonnet/Opus),但从未公开参数量。
7.2 Constitutional AI 的迭代
每一代 Claude 训练时,宪法原则都经过修订和扩充。Claude 3 时代的宪法相比 2022 年论文中的版本,据 Anthropic 工程师的公开分享,已经包含了数百条更细化的原则,覆盖了更多边界场景。
7.3 红队测试(Red Teaming)的系统化
Anthropic 建立了专业的红队(Red Team)团队,专门尝试找到 Claude 的安全漏洞,并将发现的漏洞案例加入宪法原则和训练数据。
Claude 3 Model Card(公开) 披露了红队测试的几个方向:
- 化学/生物/核/放射性武器(CBRN)信息提供
- 网络攻击代码生成
- 针对特定个人的骚扰内容
- 绕过安全限制的”越狱”技巧
7.4 Extended Thinking(扩展思考模式)
Claude 3.7(2025年)引入的扩展思考模式是 Anthropic 在 Reasoning 方向的重要尝试。模型在给出最终回复前,先生成一段内部”思考过程”(对用户可见),这段思考不受与最终回复相同的格式约束。
这与 OpenAI 的 o1/o3 系列使用的 Chain-of-Thought 训练原理类似,但 Anthropic 的具体实现细节未公开。
八、Anthropic 可解释性研究:理解 Claude 的内部机制
Anthropic 有一个独特的研究方向:机制可解释性(Mechanistic Interpretability),致力于理解 Transformer 内部发生了什么。这些研究发表在 transformer-circuits.pub,是目前最接近”打开 Claude 黑盒”的公开研究。
8.1 归纳头(Induction Heads)
论文: In-context Learning and Induction Heads(Olsson et al., Anthropic, 2022)
核心发现: 在双层 Transformer 中,存在一种被称为”归纳头”的注意力头组合,它实现了以下功能:
功能描述: 如果序列中出现了 [A][B] 的模式,归纳头能够在遇到再次出现的 [A] 时,预测下一个 token 是 [B]。
更一般化的归纳: [A][B]...[A] → [B]
这个机制是 LLM 能够进行 in-context learning(少样本学习)的核心原因:
- 用户在 prompt 中给几个示例
(输入A, 输出B),(输入C, 输出D) - 模型通过归纳头识别这些模式
- 对新的输入,预测应该输出对应的格式
涌现性: 在模型训练到一定规模时,这些归纳头会突然出现(涌现)——训练过程中有一个明显的”相变”时刻,对应着模型在 in-context learning 能力上的突然提升。
这个发现有重要意义:它首次从机制层面解释了为什么 LLM 能够进行 few-shot 学习,这不是某种神秘的”记忆”,而是特定的计算回路实现的模式匹配。
8.2 叠加原理(Superposition)
论文: Toy Models of Superposition(Elhage et al., Anthropic, 2022)
核心问题: 一个 $d$ 维的神经网络层理论上只能存储 $d$ 个特征。但实验表明,大型神经网络能够表示远远超过 $d$ 个不同的概念。这是如何做到的?
叠加假说(Superposition Hypothesis): 神经网络在不同方向(而不只是坐标轴方向)上编码特征,允许多个特征共享一个神经元,通过稀疏性来减少干扰。
数学形式:
假设我们有 $n$ 个特征需要编码到 $d$ 维空间($n > d$),每个特征的激活是稀疏的(大多数时候为零)。则特征向量 $f_i \in \mathbb{R}^d$ 可以满足:
$$\|f_i\|_2 = 1, \quad f_i \cdot f_j \approx 0 \text{ for } i \neq j \text{ (近似正交)}$$
通过选择近似正交的方向(而不只是坐标轴方向),$d$ 维空间中可以容纳远超 $d$ 个的特征,只要每次激活的特征数量不多(稀疏性保证了干扰较小)。
直觉类比: 就像压缩图像——你用 100KB 存储了比原始数据更多的信息,靠的是稀疏表示(大部分地方是零)。
对可解释性的影响: 叠加现象解释了为什么单个神经元通常不对应单一、可解释的概念(多语义性,polysemanticity),以及为什么直接”读出”神经网络的知识很困难。
8.3 稀疏自编码器(Sparse Autoencoders, SAE)
论文: Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet(Templeton et al., Anthropic, 2024)
如果特征是叠加在高维激活空间中的,那么可以用稀疏自编码器(SAE)来”解叠加”,找出这些特征。
SAE 的架构:
$$z = \text{ReLU}(W_{enc}(x - b_{dec}) + b_{enc})$$
$$\hat{x} = W_{dec} z + b_{dec}$$
其中 $x \in \mathbb{R}^d$ 是神经网络的激活(如注意力层的输出),$z \in \mathbb{R}^{n_{dict}}$ 是稀疏的特征向量($n_{dict} \gg d$),$\hat{x}$ 是重建值。
损失函数包含重建损失和稀疏性惩罚:
$$\mathcal{L} = \|x - \hat{x}\|_2^2 + \lambda \|z\|_1$$
在 Claude 3 Sonnet 上的实验:
他们在 Claude 3 Sonnet 的某一层上训练了一个包含 1600 万个特征的稀疏自编码器,然后系统地检查这些特征激活时对应什么样的输入:
发现的部分特征(均有具体激活案例支撑):
- “金门大桥”特征:在包含金门大桥相关文字或图像时激活
- “DNA 双螺旋”特征:在生物学讨论中激活
- “欺骗意图”特征:在讨论欺骗或操纵时激活
- “道德困境”特征:在伦理讨论中激活
- “Inner Conflict”(内心冲突)特征:在描述心理冲突的文本中激活
最重要的发现: 这些特征是多模态的——同一个”金门大桥”特征在英语、法语、中文、日语等文字描述,以及相关图片中都会激活。这说明 Claude 内部表示的是语言无关的概念,而不是特定语言的词汇。
Claude 3 Sonnet 的”金门大桥”实验(Anthropic 博客): 研究人员人工放大了金门大桥特征的激活强度,发现模型开始在所有话题中都提及金门大桥,表现出”身份认同”被强制修改的现象——这直接证明了特征与行为之间的因果关系。
九、值得关注的开放性问题
Constitutional AI 是目前已知最完整的 AI 对齐方法之一,但仍有几个重要的未解问题:
9.1 宪法本身的偏见
宪法是由 Anthropic 的研究人员编写的,不可避免地反映了特定的文化背景和价值观。例如:
- 什么算”有害”因文化而异
- “诚实”在不同文化中的权重不同
- 不同政治立场对”有帮助”的定义不同
Anthropic 承认这一问题,并在尝试通过引入更多元化的价值观来源来缓解(如联合国人权宣言)。
9.2 AI 反馈的自我强化问题
如果用 AI 本身来评判 AI 的输出,存在自我强化的风险:AI A 的偏见可能被 AI B 学习并放大。
这是 RLAIF 的一个根本性挑战,目前没有完美的解决方案,通常通过多模型集成(用多个不同的 AI 评判者)和保留一定比例的人类反馈来缓解。
9.3 可解释性研究的可扩展性
Scaling Monosemanticity 的实验表明,Claude 3 Sonnet 的某一层有 1600 万个可解释特征。整个模型有数十层,每层可能有数千万个特征——完整地理解模型内部机制面临巨大的规模挑战。
Anthropic 研究团队在他们的公开博客中承认,目前的工具只能分析模型的一小部分,距离”完全理解 Claude 为什么做出某个回复”还有很远的路。
十、CAI 的影响与意义
Constitutional AI 发表后,已经对整个 AI 行业产生了深远影响:
- RLAIF 被广泛采用: 用 AI 评判者替代人类标注,已经成为许多机构(包括 Google DeepMind)的标准实践
- 显式原则的价值被认可: 越来越多的机构开始为 AI 系统制定书面的价值原则,而不只是依赖隐式的人类偏好
- 推动了 AI 伦理标准化: CAI 论文提供了一个可操作的框架,让”AI 对齐”从抽象概念变成可执行的技术步骤
- 启发了开源替代方案: 如 Anthropic HH Dataset 公开发布后,被多个开源项目用来训练对齐版本的开源 LLM
对于想深入理解 Claude 系列模型行为的工程师来说,arXiv:2212.08073 和 transformer-circuits.pub 是最值得精读的一手资料。

