Reasoning 模型训练技术全景

核心论文：

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models（Wei et al., Google, 2022）arXiv:2201.11903

Let’s Verify Step by Step（Lightman et al., OpenAI, 2023）arXiv:2305.20050

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（DeepSeek-AI, 2025）arXiv:2501.12948（Nature, Volume 645, 633–638, 2025）

Scaling LLM Test-Time Compute Optimally（Snell et al., UC Berkeley, 2024）arXiv:2408.03314

Self-Consistency Improves Chain of Thought Reasoning（Wang et al., Google, 2022）arXiv:2203.11171

Tree of Thoughts: Deliberate Problem Solving with LLMs（Yao et al., Princeton/Google, 2023）arXiv:2305.10601

一、从预测 Token 到真正”推理”：核心挑战
二、Chain-of-Thought：让模型先思考再回答
三、从 Prompting 到训练：让 CoT 成为模型内化能力
四、DeepSeek-R1：用纯强化学习涌现推理能力
五、Test-Time Compute Scaling（推理时计算扩展）
六、OpenAI o1/o3 系列的已知信息
七、Claude 的 Extended Thinking 模式
八、Reasoning 模型的训练数据：关键挑战
九、Reasoning 模型的局限性与研究前沿

一、从预测 Token 到真正”推理”：核心挑战

1.1 LLM 的”思维速度”问题

心理学研究（Daniel Kahneman 的《Thinking, Fast and Slow》，2011）将人类思维分为两类：

系统1（快思维）： 快速、自动、直觉，不需要有意识的努力
系统2（慢思维）： 慢速、分析、逻辑，需要有意识的努力

标准 LLM 的文本生成类似系统1：在一步之内，不假思索地预测下一个 token。这对于简单问题（”法国的首都是哪里？”）足够了，但对于需要多步推理的复杂问题（”如果 $x + y = 10$ 且 $xy = 21$，求 $x^2 + y^2$”），直接预测答案的成功率极低。

核心原因： 复杂问题的正确答案需要建立在中间步骤的基础上，而在一次前向传播中，模型没有足够的”计算空间”来构建这些中间步骤。

Chain-of-Thought 和 Reasoning 模型的核心思想都是：给模型更多的计算机会（通过生成中间步骤），来解决需要多步推理的问题。

1.2 标准 LLM 的数学推理局限性

一个具体的例子：

问题：小明有 5 个苹果，给了小红 2 个，然后又从市场买了 3 个，最后他有几个苹果？

直接预测答案：对于这个简单问题，GPT-3（未经 CoT 训练）有时会答错（答出”3 个”，即只计算了最后的购买）。

这是因为模型在生成最终答案时，需要在单个 forward pass 中”隐式”完成加减运算，而这对 Transformer 的激活空间是挑战。

涌现性（Emergent Abilities）的门槛： Wei et al.（2022, arXiv:2206.07682）发现，数学推理等能力在模型达到一定规模（约 100B 参数）时才”突然出现”，小模型即使用 CoT 也几乎无法推理。这被称为”涌现能力”。

二、Chain-of-Thought：让模型先思考再回答

论文： Chain-of-Thought Prompting Elicits Reasoning in Large Language Models（Wei et al., Google, 2022）arXiv:2201.11903

2.1 核心方法

Chain-of-Thought（CoT，思维链）的方法极其简单：在 few-shot 示例中，不只给出”问题→答案”，而是给出”问题→推理步骤→答案”：

标准 few-shot 示例：

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?
A: 11.

CoT few-shot 示例：

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?
A: Roger started with 5 balls. 2 cans × 3 balls/can = 6 balls. 5 + 6 = 11. The answer is 11.

在这种格式的 few-shot 示例引导下，大型模型会自动生成中间推理步骤，然后给出答案。

2.2 CoT 的效果

Wei et al. 的实验（在 GPT-3、PaLM 等模型上）：

评测集	标准 few-shot	CoT few-shot	提升
GSM8K（数学）	PaLM 540B：17.9%	PaLM 540B：56.9%	+39%
SVAMP（数学）	62%	79%	+17%
AQuA（代数）	33%	50%	+17%
StrategyQA（常识）	63%	65%	+2%

重要发现：

CoT 效果随模型规模增大而增强；在小模型（7B 以下）上几乎无效
CoT 在需要多步推理的任务上效果最显著；在单步推理任务上提升很小
CoT 生成的中间步骤不需要”完全正确”，只要帮助模型建立正确的推理框架即可

2.3 Zero-shot CoT：只加一句话

论文： Large Language Models are Zero-Shot Reasoners（Kojima et al., 2022）arXiv:2205.11916

发现只需在问题末尾加上 “Let’s think step by step.”（让我们一步步思考），模型就会自动生成推理步骤，效果接近 few-shot CoT。

这说明 CoT 能力在足够大的模型中已经以某种形式”存在”，只需要合适的 prompt 触发。

三、从 Prompting 到训练：让 CoT 成为模型内化能力

3.1 问题：Prompting 的局限性

CoT Prompting 只能在模型已经具备 CoT 能力的情况下工作（需要足够大的模型），且每次推理都需要额外的 prompt 设计。更根本的问题是：这不是训练出的能力，而是靠 prompt 诱导出来的，不稳定。

目标： 通过训练，让模型把 CoT 推理作为内化能力，而不只是 prompt 触发的行为。

3.2 Scratchpad 微调

早期方法： 收集带有推理过程的示例数据，然后做 SFT：

训练数据格式：
输入：Q: Roger has 5 tennis balls...
输出：Roger started with 5 balls. 2 cans × 3 = 6. 5 + 6 = 11. \\boxed{11}

这让模型学会在回答前生成推理过程，但问题是高质量的推理数据很难获取，且模型只学到了”模仿”推理格式，不一定真正学到推理能力。

3.3 Process Reward Models（过程奖励模型）

论文： Let’s Verify Step by Step（Lightman et al., OpenAI, 2023）arXiv:2305.20050

背景： 标准奖励模型只评判最终答案（Outcome Reward Model, ORM），但多步推理可能在中间某一步出错，最终答案虽然错了但无法告诉模型哪一步出了问题。

PRM 的思路： 对推理链的每一步都单独评分，精确识别错误发生在哪一步。

数据收集：

对每个数学问题，生成多条推理链（每条有不同的中间步骤）
让人类标注员对推理链中的每一步标注：正确（+）、错误（-）、不确定（？）
用这些步骤级别的标注训练 PRM：$r_\phi(x, y_1, \ldots, y_k) \in {+1, -1}$

实验结果（MATH 数据集）：

方法	MATH 正确率
Best-of-N（N=100，ORM 选择）	54.0%
Best-of-N（N=100，PRM 选择）	72.4%
Beam search（PRM 引导）	78.2%

PRM 的主要优势在于 Best-of-N 选择：生成多条推理链，用 PRM 选出最佳的一条，效果远优于 ORM。

局限性： PRM 需要大量精细的人工标注（步骤级别），成本极高。OpenAI 为收集 MATH 数据集的 PRM 训练数据花费了大量人力。

四、DeepSeek-R1：用纯强化学习涌现推理能力

论文： DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（DeepSeek-AI, 2025）arXiv:2501.12948

这篇论文是目前为止对”如何训练出 o1 级别推理模型”最完整的公开披露，2025年登上 Nature 期刊（Volume 645, 633–638）。

4.1 DeepSeek-R1-Zero：纯 RL 的惊人结果

核心问题： 能否完全不使用 Chain-of-Thought 示例数据，只靠强化学习让模型自发学会推理？

答案：可以，但有代价。

训练设置：

基座模型：DeepSeek-V3-Base（671B MoE，37B 激活）
RL 算法：GRPO（Group Relative Policy Optimization，见后文）
奖励信号：只对最终答案的正确性给予奖励（0/1，即 ORM），不给予步骤级别反馈
格式奖励：鼓励模型使用 <think>...</think><answer>...</answer> 格式

没有任何 Chain-of-Thought 示范数据！

涌现出的能力：

在完全没有 CoT 训练数据的情况下，DeepSeek-R1-Zero 自发涌现出了以下推理行为：

自我反思（Aha Moment）： 模型在推理中途突然”意识到”之前的方向有误，然后重新开始：

<think>
Let me try a different approach...
Wait, I made an error earlier. Let me reconsider...
Actually, I realize the key insight is...
</think>

验证（Verification）： 模型在给出答案前自行验证：

<think>
Let me verify: 7 × 8 = 56, 56 + 12 = 68. Yes, that's correct.
</think>

回溯（Backtracking）： 在某条推理路径走不通时，回到分叉点尝试其他路径。
调用推理时间分配（Adaptive Compute）： 对更难的问题，自动生成更长的思考过程。

AIME 2024 结果：

模型	AIME 2024 正确率
GPT-4o	9.3%
Claude 3.5 Sonnet（2024年版）	16.0%
DeepSeek-R1-Zero（纯 RL）	71.0%

“Aha Moment” 的重要性： DeepSeek 团队在论文中专门讨论了一个令他们兴奋的现象，称之为”Aha Moment”——模型学会了在思考过程中改变方向。这是人类解决复杂问题的关键能力之一，而它从未被显式训练，是从奖励信号中自发涌现的。

R1-Zero 的缺点：

推理过程有时可读性差（语言混杂，逻辑跳跃）
有时在推理链开头就迷失方向，浪费大量计算
在一些简单格式任务上反而变差

4.2 GRPO 算法

DeepSeek-R1 使用的 RL 算法： GRPO（Group Relative Policy Optimization），而不是 PPO。

GRPO 是 PPO 的一个变体，专门为 LLM 推理训练设计，核心区别在于不需要 Critic 网络（价值函数），而是用同组多个输出的平均奖励作为基线（baseline）。

GRPO 的核心公式：

对于一条问题 $q$，生成 $G$ 个输出 ${o_1, o_2, \ldots, o_G}$，对每个输出计算奖励 ${r_1, r_2, \ldots, r_G}$：

优势函数估计（不需要 Critic，用组内均值作为基线）：

$$\hat{A}_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G)}$$

策略梯度损失：

$$\mathcal{L}_{\text{GRPO}} = -\frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left(\rho_{i,t} \hat{A}_i, \text{clip}(\rho_{i,t}, 1-\epsilon, 1+\epsilon) \hat{A}_i\right) - \beta \mathbb{D}_{\text{KL}}[\pi_\theta \| \pi_{\text{ref}}]$$

GRPO vs PPO 的关键区别：

方面	PPO	GRPO
优势函数估计	需要 Critic 网络	用组内相对奖励
显存需求	需要额外的 Critic	节省约 25% 显存
训练稳定性	Critic 需要与 Actor 协同训练	无 Critic，更稳定
适合场景	连续动作空间	离散的 token 生成

GRPO 的直觉：在一组生成的输出中，奖励高于平均的输出被鼓励（正优势），奖励低于平均的被抑制（负优势），使用组内相对奖励代替绝对奖励。

4.3 DeepSeek-R1 的完整训练流程

为了解决 R1-Zero 的可读性问题，DeepSeek-R1 使用了”冷启动数据 + RL”的混合方案：

阶段一：冷启动（Cold Start SFT）

收集少量（数千条）高质量的 CoT 示例数据，格式为：

<think>
[长且详细的推理过程，包括假设检验、回溯、自我验证]
</think>
[最终答案]

关键要求：

推理过程足够详细（通常超过 1000 tokens）
包含自我反思和验证的”人类风格”推理
结构清晰，可读性好

对基座模型做 SFT，使其初步学会这种格式。

阶段二：推理导向的 RL（Reasoning-Oriented RL）

用 GRPO 进行大规模强化学习训练：

奖励信号：
- 准确性奖励：答案正确 +1，错误 0（可验证的数学/代码题用确定性检查，其他题用 LLM 评判）
- 格式奖励：严格使用 <think>...</think> 格式才给正奖励
数据：数学题（AIME/AMC 风格）+ 代码题（LeetCode/竞赛风格）+ 科学推理题

阶段三：拒绝采样 SFT（Rejection Sampling）

用阶段二的模型对所有题目生成多个解法
用奖励模型（正确性 + 可读性）过滤，只保留高质量推理链
加入通用能力的 SFT 数据（写作、问答、角色扮演等，防止能力退化）
对模型做 SFT

阶段四：全能力 RL（All-Scenario RL）

继续 RL 训练，但加入更多类型的奖励信号：

数学/代码/逻辑的准确性奖励
用 LLM 评判的有用性奖励（用于通用问答）
有害性惩罚（安全对齐）

4.4 奖励设计的关键细节

可验证奖励 vs LLM 评判奖励：

对于数学题和代码题，可以确定性地验证答案是否正确：

数学题：检查数值是否匹配（允许一定误差）或符号表达式是否等价
代码题：运行测试用例，所有用例通过得分 1，否则得分 0

这类可验证的奖励非常干净，没有奖励模型的误差。DeepSeek-R1 的核心洞察是：数学和代码提供了天然的可验证奖励信号，是训练推理能力的理想场景。

对于通用问答，使用 LLM 评判（评判有用性、准确性、无害性），质量不如可验证奖励，但覆盖了更广泛的任务。

长度惩罚（Length Penalty）：

为防止模型通过生成无限长的”思考”来规避判断，DeepSeek-R1 加入了长度惩罚：超过一定长度后，每个额外 token 扣除小额奖励。这迫使模型学会高效推理，而不是堆砌废话。

五、Test-Time Compute Scaling（推理时计算扩展）

论文： Scaling LLM Test-Time Compute Optimally（Snell et al., UC Berkeley, 2024）arXiv:2408.03314

5.1 训练时计算 vs 推理时计算

传统观点认为，LLM 的能力主要取决于训练时的计算量（参数量 × 训练 tokens）。但 2024 年的一个重要研究方向是：推理时多花计算，能否超越训练时更大的模型？

答案是：在某些条件下，可以。

核心思想： 在推理时，用更多的计算（生成更多样本、搜索更长的推理链）来提升单次查询的答案质量。

5.2 Best-of-N Sampling

最简单的推理时计算扩展方法：

对同一个问题，用模型生成 $N$ 个独立的答案
用奖励模型（或多数投票）从 $N$ 个答案中选出最好的

效果（来自 OpenAI PRM 论文）：

对于 MATH 数据集，使用 PRM 做 Best-of-N 选择：

Best-of-1：约 46%
Best-of-100：约 72%（提升约 26%，相当于提升了 1-2 个模型代的差距）

成本： Best-of-N 的计算成本是 $O(N)$，对于 $N=100$，推理成本增加 100 倍，但可以通过并行化处理。

5.3 Self-Consistency（自我一致性）

论文： Self-Consistency Improves Chain of Thought Reasoning（Wang et al., Google, 2022）arXiv:2203.11171

一种无需奖励模型的 Best-of-N 变体：

生成 $N$ 条不同的推理链（通过高温度采样）
对最终答案进行多数投票（majority voting）
得票最多的答案作为最终输出

实验结果： 在 GSM8K 上，使用 40 条推理链的多数投票，比单次推理提升约 15%。

直觉： 如果不同的推理路径都能独立得出相同答案，这个答案更可能是正确的。正确答案的”吸引力”是真实的世界知识，而错误的推理路径相互独立，不太可能系统地产生相同的错误答案。

5.4 Beam Search 与推理搜索

Tree of Thoughts（ToT）： Yao et al., Princeton/Google, 2023）arXiv:2305.10601

ToT 将推理过程建模为树形搜索：

      问题
      /|\
    方向A 方向B 方向C
    / \    |    / \
  A1  A2  B1  C1  C2
  ↓   ↓   ↓   ↓   ↓
评分 评分 评分 评分 评分
       ↑选出最好的继续

步骤：

分解问题为若干”思考步骤”
每步生成多个候选思路
用 LLM 对每个候选思路评分（”这条路径有希望吗？”）
选择最有希望的路径继续展开（类似 BFS 或 DFS + 启发式）
或使用 MCTS（蒙特卡洛树搜索）

效果： 在”24 点游戏”（用 4 个数字计算出 24）上，标准 CoT 正确率约 4%，ToT 提升到 74%。

实践局限： ToT 的推理开销是标准推理的数十到数百倍，实际应用中成本较高。

5.5 推理时计算的最优分配

Snell et al. 的研究回答了一个关键问题：给定固定的推理时计算预算 $C$，如何最优地分配？

两种策略的权衡：

Verifier-based search（PRM 引导的搜索）： 在推理树上做搜索，用 PRM 评估每步的质量，计算集中用于探索好的推理路径
Revise iteratively（迭代修订）： 生成初始答案，然后迭代地批评和修改，计算集中用于精炼最终答案

关键发现：

对于简单问题（模型正确率较高）：Best-of-N 或多数投票效果更好（广度优先）
对于困难问题（模型正确率较低）：PRM 引导的 beam search 效果更好（深度优先）

自适应计算： 理想情况下，应该根据问题难度动态分配推理时间——对简单问题快速回答，对难题投入更多计算。这正是 DeepSeek-R1 的 <think> 机制自发学会的：难题会自动生成更长的推理过程。

六、OpenAI o1/o3 系列的已知信息

OpenAI 从未公开 o1/o3 的训练细节，但从官方发布的信息和研究论文可以推断：

已知事实（来自官方材料）：

o1 使用了大量推理时计算（thinking time 与测试集性能呈正相关）
o1 在数学、代码、科学推理上比 GPT-4o 大幅提升（AIME 2024：GPT-4o 9.3% vs o1 74.4%）
o3 在 ARC-AGI 测试集上达到了 87.5% 的成绩（超过人类平均水平 85%）

合理推断（基于 DeepSeek-R1 等公开研究）：

使用了 RL 训练推理能力（DeepSeek-R1 已证明纯 RL 可以涌现出推理）
使用了 Test-Time Compute Scaling（推理时投入更多计算）
可能使用了 Process Reward Model（步骤级别奖励）

o1 的系统卡（System Card）提到，模型能够自我改正（self-correction）和自我验证（self-verification），这与 R1-Zero 中观察到的涌现行为高度一致。

七、Claude 的 Extended Thinking 模式

Claude 3.7（2025年2月）引入了 Extended Thinking 功能（Anthropic 官方博客），允许模型在生成最终回复前花时间”思考”。

已知信息（来自 Anthropic 官方材料）：

思考过程对用户可见（与 o1 的不可见”思考” token 不同）
用户可以设置最大 thinking budget（从 1K 到 128K tokens）
在需要推理的任务上，extended thinking 显著提升了性能
在数学（AIME 2024）和代码（SWE-bench）上有明显进步

未公开的内容： Anthropic 没有公开 extended thinking 的训练细节（是否使用 RL，是否使用 PRM，具体的训练数据来源）。

从第一性原理推断，Extended Thinking 的训练应该使用了类似 DeepSeek-R1 的 RL 方法（有可验证奖励信号的推理任务 + 策略梯度优化），同时结合了 Constitutional AI 的安全性约束（思考过程也需要遵守 HHH 原则）。

八、Reasoning 模型的训练数据：关键挑战

8.1 可验证奖励的重要性

Reasoning 模型训练中最关键的工程问题之一：如何构建大量可验证的训练题目？

只有可验证答案的题目（数学、代码、形式逻辑）才能提供干净的 0/1 奖励信号。不可验证的开放性问题（写作、观点表达）需要依赖 LLM 评判，引入了更多噪声。

DeepSeek 的策略（来自技术报告）：

从 AIME/AMC/竞赛数学题库收集题目（覆盖 10+ 年历年题）
从 LeetCode/Codeforces 收集代码竞赛题（包含测试用例）
专门过滤掉”有答案泄露在网上”的题目（防止模型直接记忆答案而非推理）
生成额外的合成数学题（用已知算法生成有唯一解的方程组/几何题）

8.2 蒸馏（Distillation）

DeepSeek-R1 开源了多个蒸馏版本（从 R1 蒸馏到更小的模型）：

模型	基座	AIME 2024
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	55.5%
DeepSeek-R1-Distill-LLaMA-8B	LLaMA-3.1-8B	50.4%
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	72.6%
DeepSeek-R1-Distill-LLaMA-70B	LLaMA-3.3-70B	70.0%

蒸馏方法： 用 R1 生成高质量的推理链（800K+ 条），然后对小模型做 SFT。结果令人惊讶：32B 的蒸馏版本性能接近完整的 671B R1 模型。

这说明：一旦推理能力被大模型学到，可以通过蒸馏有效地传递给小模型，而不需要重新进行昂贵的 RL 训练。

九、Reasoning 模型的局限性与研究前沿

9.1 已知局限性

长推理链的可靠性问题： 模型生成的推理链有时会出现”推理链错误但答案恰好正确”的现象（模型找到了捷径），或反过来”推理链看似合理但答案错误”。

形式化验证的缺失： 现有的 Reasoning 模型无法进行真正的形式化证明（如 Coq/Lean），它们生成的是自然语言推理而非逻辑严格的证明。

领域限制： RL 训练的效果高度依赖于奖励信号的质量。数学和代码上的成功很难直接迁移到需要开放式推理的领域（如历史分析、哲学论证）。

奖励黑客在推理中的体现： 模型可能学会”看起来像推理”的格式，而实际上直接跳跃到答案。这种行为很难通过奖励信号检测。

9.2 研究前沿

可扩展的过程奖励： 如何以更低成本获得步骤级别的奖励信号？一个方向是 Monte Carlo 估计——对每个中间步骤，随机继续完成多次，用最终答案的成功率估计这个步骤的质量（避免了逐步人工标注）。

形式化数学（Formal Mathematics）： 使用 Lean、Isabelle 等形式化证明语言训练模型，提供100%可靠的步骤级别验证。AlphaProof（DeepMind，2024）在 IMO 数学题上取得了突破，但需要将自然语言题目转化为 Lean 代码。

Reward Model 的自改进： 用当前最强的推理模型来持续改进奖励模型，形成自我对弈的循环，类似 AlphaGo 的 self-play。