核心论文:
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(Wei et al., Google, 2022)arXiv:2201.11903
- Let’s Verify Step by Step(Lightman et al., OpenAI, 2023)arXiv:2305.20050
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-AI, 2025)arXiv:2501.12948(Nature, Volume 645, 633–638, 2025)
- Scaling LLM Test-Time Compute Optimally(Snell et al., UC Berkeley, 2024)arXiv:2408.03314
- Self-Consistency Improves Chain of Thought Reasoning(Wang et al., Google, 2022)arXiv:2203.11171
- Tree of Thoughts: Deliberate Problem Solving with LLMs(Yao et al., Princeton/Google, 2023)arXiv:2305.10601
目录
- 一、从预测 Token 到真正”推理”:核心挑战
- 二、Chain-of-Thought:让模型先思考再回答
- 三、从 Prompting 到训练:让 CoT 成为模型内化能力
- 四、DeepSeek-R1:用纯强化学习涌现推理能力
- 五、Test-Time Compute Scaling(推理时计算扩展)
- 六、OpenAI o1/o3 系列的已知信息
- 七、Claude 的 Extended Thinking 模式
- 八、Reasoning 模型的训练数据:关键挑战
- 九、Reasoning 模型的局限性与研究前沿
一、从预测 Token 到真正”推理”:核心挑战
1.1 LLM 的”思维速度”问题
心理学研究(Daniel Kahneman 的《Thinking, Fast and Slow》,2011)将人类思维分为两类:
- 系统1(快思维): 快速、自动、直觉,不需要有意识的努力
- 系统2(慢思维): 慢速、分析、逻辑,需要有意识的努力
标准 LLM 的文本生成类似系统1:在一步之内,不假思索地预测下一个 token。这对于简单问题(”法国的首都是哪里?”)足够了,但对于需要多步推理的复杂问题(”如果 $x + y = 10$ 且 $xy = 21$,求 $x^2 + y^2$”),直接预测答案的成功率极低。
核心原因: 复杂问题的正确答案需要建立在中间步骤的基础上,而在一次前向传播中,模型没有足够的”计算空间”来构建这些中间步骤。
Chain-of-Thought 和 Reasoning 模型的核心思想都是:给模型更多的计算机会(通过生成中间步骤),来解决需要多步推理的问题。
1.2 标准 LLM 的数学推理局限性
一个具体的例子:
问题:小明有 5 个苹果,给了小红 2 个,然后又从市场买了 3 个,最后他有几个苹果?
直接预测答案:对于这个简单问题,GPT-3(未经 CoT 训练)有时会答错(答出”3 个”,即只计算了最后的购买)。
这是因为模型在生成最终答案时,需要在单个 forward pass 中”隐式”完成加减运算,而这对 Transformer 的激活空间是挑战。
涌现性(Emergent Abilities)的门槛: Wei et al.(2022, arXiv:2206.07682)发现,数学推理等能力在模型达到一定规模(约 100B 参数)时才”突然出现”,小模型即使用 CoT 也几乎无法推理。这被称为”涌现能力”。
二、Chain-of-Thought:让模型先思考再回答
论文: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(Wei et al., Google, 2022)arXiv:2201.11903
2.1 核心方法
Chain-of-Thought(CoT,思维链)的方法极其简单:在 few-shot 示例中,不只给出”问题→答案”,而是给出”问题→推理步骤→答案”:
标准 few-shot 示例:
Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now? |
CoT few-shot 示例:
Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now? |
在这种格式的 few-shot 示例引导下,大型模型会自动生成中间推理步骤,然后给出答案。
2.2 CoT 的效果
Wei et al. 的实验(在 GPT-3、PaLM 等模型上):
| 评测集 | 标准 few-shot | CoT few-shot | 提升 |
|---|---|---|---|
| GSM8K(数学) | PaLM 540B:17.9% | PaLM 540B:56.9% | +39% |
| SVAMP(数学) | 62% | 79% | +17% |
| AQuA(代数) | 33% | 50% | +17% |
| StrategyQA(常识) | 63% | 65% | +2% |
重要发现:
- CoT 效果随模型规模增大而增强;在小模型(7B 以下)上几乎无效
- CoT 在需要多步推理的任务上效果最显著;在单步推理任务上提升很小
- CoT 生成的中间步骤不需要”完全正确”,只要帮助模型建立正确的推理框架即可
2.3 Zero-shot CoT:只加一句话
论文: Large Language Models are Zero-Shot Reasoners(Kojima et al., 2022)arXiv:2205.11916
发现只需在问题末尾加上 “Let’s think step by step.”(让我们一步步思考),模型就会自动生成推理步骤,效果接近 few-shot CoT。
这说明 CoT 能力在足够大的模型中已经以某种形式”存在”,只需要合适的 prompt 触发。
三、从 Prompting 到训练:让 CoT 成为模型内化能力
3.1 问题:Prompting 的局限性
CoT Prompting 只能在模型已经具备 CoT 能力的情况下工作(需要足够大的模型),且每次推理都需要额外的 prompt 设计。更根本的问题是:这不是训练出的能力,而是靠 prompt 诱导出来的,不稳定。
目标: 通过训练,让模型把 CoT 推理作为内化能力,而不只是 prompt 触发的行为。
3.2 Scratchpad 微调
早期方法: 收集带有推理过程的示例数据,然后做 SFT:
训练数据格式: |
这让模型学会在回答前生成推理过程,但问题是高质量的推理数据很难获取,且模型只学到了”模仿”推理格式,不一定真正学到推理能力。
3.3 Process Reward Models(过程奖励模型)
论文: Let’s Verify Step by Step(Lightman et al., OpenAI, 2023)arXiv:2305.20050
背景: 标准奖励模型只评判最终答案(Outcome Reward Model, ORM),但多步推理可能在中间某一步出错,最终答案虽然错了但无法告诉模型哪一步出了问题。
PRM 的思路: 对推理链的每一步都单独评分,精确识别错误发生在哪一步。
数据收集:
- 对每个数学问题,生成多条推理链(每条有不同的中间步骤)
- 让人类标注员对推理链中的每一步标注:正确(+)、错误(-)、不确定(?)
- 用这些步骤级别的标注训练 PRM:$r_\phi(x, y_1, \ldots, y_k) \in {+1, -1}$
实验结果(MATH 数据集):
| 方法 | MATH 正确率 |
|---|---|
| Best-of-N(N=100,ORM 选择) | 54.0% |
| Best-of-N(N=100,PRM 选择) | 72.4% |
| Beam search(PRM 引导) | 78.2% |
PRM 的主要优势在于 Best-of-N 选择:生成多条推理链,用 PRM 选出最佳的一条,效果远优于 ORM。
局限性: PRM 需要大量精细的人工标注(步骤级别),成本极高。OpenAI 为收集 MATH 数据集的 PRM 训练数据花费了大量人力。
四、DeepSeek-R1:用纯强化学习涌现推理能力
论文: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-AI, 2025)arXiv:2501.12948
这篇论文是目前为止对”如何训练出 o1 级别推理模型”最完整的公开披露,2025年登上 Nature 期刊(Volume 645, 633–638)。
4.1 DeepSeek-R1-Zero:纯 RL 的惊人结果
核心问题: 能否完全不使用 Chain-of-Thought 示例数据,只靠强化学习让模型自发学会推理?
答案:可以,但有代价。
训练设置:
- 基座模型:DeepSeek-V3-Base(671B MoE,37B 激活)
- RL 算法:GRPO(Group Relative Policy Optimization,见后文)
- 奖励信号:只对最终答案的正确性给予奖励(0/1,即 ORM),不给予步骤级别反馈
- 格式奖励:鼓励模型使用
<think>...</think><answer>...</answer>格式
没有任何 Chain-of-Thought 示范数据!
涌现出的能力:
在完全没有 CoT 训练数据的情况下,DeepSeek-R1-Zero 自发涌现出了以下推理行为:
自我反思(Aha Moment): 模型在推理中途突然”意识到”之前的方向有误,然后重新开始:
<think>
Let me try a different approach...
Wait, I made an error earlier. Let me reconsider...
Actually, I realize the key insight is...
</think>验证(Verification): 模型在给出答案前自行验证:
<think>
Let me verify: 7 × 8 = 56, 56 + 12 = 68. Yes, that's correct.
</think>回溯(Backtracking): 在某条推理路径走不通时,回到分叉点尝试其他路径。
调用推理时间分配(Adaptive Compute): 对更难的问题,自动生成更长的思考过程。
AIME 2024 结果:
| 模型 | AIME 2024 正确率 |
|---|---|
| GPT-4o | 9.3% |
| Claude 3.5 Sonnet(2024年版) | 16.0% |
| DeepSeek-R1-Zero(纯 RL) | 71.0% |
“Aha Moment” 的重要性: DeepSeek 团队在论文中专门讨论了一个令他们兴奋的现象,称之为”Aha Moment”——模型学会了在思考过程中改变方向。这是人类解决复杂问题的关键能力之一,而它从未被显式训练,是从奖励信号中自发涌现的。
R1-Zero 的缺点:
- 推理过程有时可读性差(语言混杂,逻辑跳跃)
- 有时在推理链开头就迷失方向,浪费大量计算
- 在一些简单格式任务上反而变差
4.2 GRPO 算法
DeepSeek-R1 使用的 RL 算法: GRPO(Group Relative Policy Optimization),而不是 PPO。
GRPO 是 PPO 的一个变体,专门为 LLM 推理训练设计,核心区别在于不需要 Critic 网络(价值函数),而是用同组多个输出的平均奖励作为基线(baseline)。
GRPO 的核心公式:
对于一条问题 $q$,生成 $G$ 个输出 ${o_1, o_2, \ldots, o_G}$,对每个输出计算奖励 ${r_1, r_2, \ldots, r_G}$:
优势函数估计(不需要 Critic,用组内均值作为基线):
$$\hat{A}_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G)}$$
策略梯度损失:
$$\mathcal{L}_{\text{GRPO}} = -\frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left(\rho_{i,t} \hat{A}_i, \text{clip}(\rho_{i,t}, 1-\epsilon, 1+\epsilon) \hat{A}_i\right) - \beta \mathbb{D}_{\text{KL}}[\pi_\theta \| \pi_{\text{ref}}]$$
GRPO vs PPO 的关键区别:
| 方面 | PPO | GRPO |
|---|---|---|
| 优势函数估计 | 需要 Critic 网络 | 用组内相对奖励 |
| 显存需求 | 需要额外的 Critic | 节省约 25% 显存 |
| 训练稳定性 | Critic 需要与 Actor 协同训练 | 无 Critic,更稳定 |
| 适合场景 | 连续动作空间 | 离散的 token 生成 |
GRPO 的直觉:在一组生成的输出中,奖励高于平均的输出被鼓励(正优势),奖励低于平均的被抑制(负优势),使用组内相对奖励代替绝对奖励。
4.3 DeepSeek-R1 的完整训练流程
为了解决 R1-Zero 的可读性问题,DeepSeek-R1 使用了”冷启动数据 + RL”的混合方案:
阶段一:冷启动(Cold Start SFT)
收集少量(数千条)高质量的 CoT 示例数据,格式为:
<think> |
关键要求:
- 推理过程足够详细(通常超过 1000 tokens)
- 包含自我反思和验证的”人类风格”推理
- 结构清晰,可读性好
对基座模型做 SFT,使其初步学会这种格式。
阶段二:推理导向的 RL(Reasoning-Oriented RL)
用 GRPO 进行大规模强化学习训练:
奖励信号:
- 准确性奖励:答案正确 +1,错误 0(可验证的数学/代码题用确定性检查,其他题用 LLM 评判)
- 格式奖励:严格使用
<think>...</think>格式才给正奖励
数据:数学题(AIME/AMC 风格)+ 代码题(LeetCode/竞赛风格)+ 科学推理题
阶段三:拒绝采样 SFT(Rejection Sampling)
- 用阶段二的模型对所有题目生成多个解法
- 用奖励模型(正确性 + 可读性)过滤,只保留高质量推理链
- 加入通用能力的 SFT 数据(写作、问答、角色扮演等,防止能力退化)
- 对模型做 SFT
阶段四:全能力 RL(All-Scenario RL)
继续 RL 训练,但加入更多类型的奖励信号:
- 数学/代码/逻辑的准确性奖励
- 用 LLM 评判的有用性奖励(用于通用问答)
- 有害性惩罚(安全对齐)
4.4 奖励设计的关键细节
可验证奖励 vs LLM 评判奖励:
对于数学题和代码题,可以确定性地验证答案是否正确:
- 数学题:检查数值是否匹配(允许一定误差)或符号表达式是否等价
- 代码题:运行测试用例,所有用例通过得分 1,否则得分 0
这类可验证的奖励非常干净,没有奖励模型的误差。DeepSeek-R1 的核心洞察是:数学和代码提供了天然的可验证奖励信号,是训练推理能力的理想场景。
对于通用问答,使用 LLM 评判(评判有用性、准确性、无害性),质量不如可验证奖励,但覆盖了更广泛的任务。
长度惩罚(Length Penalty):
为防止模型通过生成无限长的”思考”来规避判断,DeepSeek-R1 加入了长度惩罚:超过一定长度后,每个额外 token 扣除小额奖励。这迫使模型学会高效推理,而不是堆砌废话。
五、Test-Time Compute Scaling(推理时计算扩展)
论文: Scaling LLM Test-Time Compute Optimally(Snell et al., UC Berkeley, 2024)arXiv:2408.03314
5.1 训练时计算 vs 推理时计算
传统观点认为,LLM 的能力主要取决于训练时的计算量(参数量 × 训练 tokens)。但 2024 年的一个重要研究方向是:推理时多花计算,能否超越训练时更大的模型?
答案是:在某些条件下,可以。
核心思想: 在推理时,用更多的计算(生成更多样本、搜索更长的推理链)来提升单次查询的答案质量。
5.2 Best-of-N Sampling
最简单的推理时计算扩展方法:
- 对同一个问题,用模型生成 $N$ 个独立的答案
- 用奖励模型(或多数投票)从 $N$ 个答案中选出最好的
效果(来自 OpenAI PRM 论文):
对于 MATH 数据集,使用 PRM 做 Best-of-N 选择:
- Best-of-1:约 46%
- Best-of-100:约 72%(提升约 26%,相当于提升了 1-2 个模型代的差距)
成本: Best-of-N 的计算成本是 $O(N)$,对于 $N=100$,推理成本增加 100 倍,但可以通过并行化处理。
5.3 Self-Consistency(自我一致性)
论文: Self-Consistency Improves Chain of Thought Reasoning(Wang et al., Google, 2022)arXiv:2203.11171
一种无需奖励模型的 Best-of-N 变体:
- 生成 $N$ 条不同的推理链(通过高温度采样)
- 对最终答案进行多数投票(majority voting)
- 得票最多的答案作为最终输出
实验结果: 在 GSM8K 上,使用 40 条推理链的多数投票,比单次推理提升约 15%。
直觉: 如果不同的推理路径都能独立得出相同答案,这个答案更可能是正确的。正确答案的”吸引力”是真实的世界知识,而错误的推理路径相互独立,不太可能系统地产生相同的错误答案。
5.4 Beam Search 与推理搜索
Tree of Thoughts(ToT): Yao et al., Princeton/Google, 2023)arXiv:2305.10601
ToT 将推理过程建模为树形搜索:
问题 |
步骤:
- 分解问题为若干”思考步骤”
- 每步生成多个候选思路
- 用 LLM 对每个候选思路评分(”这条路径有希望吗?”)
- 选择最有希望的路径继续展开(类似 BFS 或 DFS + 启发式)
- 或使用 MCTS(蒙特卡洛树搜索)
效果: 在”24 点游戏”(用 4 个数字计算出 24)上,标准 CoT 正确率约 4%,ToT 提升到 74%。
实践局限: ToT 的推理开销是标准推理的数十到数百倍,实际应用中成本较高。
5.5 推理时计算的最优分配
Snell et al. 的研究回答了一个关键问题:给定固定的推理时计算预算 $C$,如何最优地分配?
两种策略的权衡:
- Verifier-based search(PRM 引导的搜索): 在推理树上做搜索,用 PRM 评估每步的质量,计算集中用于探索好的推理路径
- Revise iteratively(迭代修订): 生成初始答案,然后迭代地批评和修改,计算集中用于精炼最终答案
关键发现:
- 对于简单问题(模型正确率较高):Best-of-N 或多数投票效果更好(广度优先)
- 对于困难问题(模型正确率较低):PRM 引导的 beam search 效果更好(深度优先)
自适应计算: 理想情况下,应该根据问题难度动态分配推理时间——对简单问题快速回答,对难题投入更多计算。这正是 DeepSeek-R1 的 <think> 机制自发学会的:难题会自动生成更长的推理过程。
六、OpenAI o1/o3 系列的已知信息
OpenAI 从未公开 o1/o3 的训练细节,但从官方发布的信息和研究论文可以推断:
已知事实(来自官方材料):
- o1 使用了大量推理时计算(thinking time 与测试集性能呈正相关)
- o1 在数学、代码、科学推理上比 GPT-4o 大幅提升(AIME 2024:GPT-4o 9.3% vs o1 74.4%)
- o3 在 ARC-AGI 测试集上达到了 87.5% 的成绩(超过人类平均水平 85%)
合理推断(基于 DeepSeek-R1 等公开研究):
- 使用了 RL 训练推理能力(DeepSeek-R1 已证明纯 RL 可以涌现出推理)
- 使用了 Test-Time Compute Scaling(推理时投入更多计算)
- 可能使用了 Process Reward Model(步骤级别奖励)
o1 的系统卡(System Card)提到,模型能够自我改正(self-correction)和自我验证(self-verification),这与 R1-Zero 中观察到的涌现行为高度一致。
七、Claude 的 Extended Thinking 模式
Claude 3.7(2025年2月)引入了 Extended Thinking 功能(Anthropic 官方博客),允许模型在生成最终回复前花时间”思考”。
已知信息(来自 Anthropic 官方材料):
- 思考过程对用户可见(与 o1 的不可见”思考” token 不同)
- 用户可以设置最大 thinking budget(从 1K 到 128K tokens)
- 在需要推理的任务上,extended thinking 显著提升了性能
- 在数学(AIME 2024)和代码(SWE-bench)上有明显进步
未公开的内容: Anthropic 没有公开 extended thinking 的训练细节(是否使用 RL,是否使用 PRM,具体的训练数据来源)。
从第一性原理推断,Extended Thinking 的训练应该使用了类似 DeepSeek-R1 的 RL 方法(有可验证奖励信号的推理任务 + 策略梯度优化),同时结合了 Constitutional AI 的安全性约束(思考过程也需要遵守 HHH 原则)。
八、Reasoning 模型的训练数据:关键挑战
8.1 可验证奖励的重要性
Reasoning 模型训练中最关键的工程问题之一:如何构建大量可验证的训练题目?
只有可验证答案的题目(数学、代码、形式逻辑)才能提供干净的 0/1 奖励信号。不可验证的开放性问题(写作、观点表达)需要依赖 LLM 评判,引入了更多噪声。
DeepSeek 的策略(来自技术报告):
- 从 AIME/AMC/竞赛数学题库收集题目(覆盖 10+ 年历年题)
- 从 LeetCode/Codeforces 收集代码竞赛题(包含测试用例)
- 专门过滤掉”有答案泄露在网上”的题目(防止模型直接记忆答案而非推理)
- 生成额外的合成数学题(用已知算法生成有唯一解的方程组/几何题)
8.2 蒸馏(Distillation)
DeepSeek-R1 开源了多个蒸馏版本(从 R1 蒸馏到更小的模型):
| 模型 | 基座 | AIME 2024 |
|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | 55.5% |
| DeepSeek-R1-Distill-LLaMA-8B | LLaMA-3.1-8B | 50.4% |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | 72.6% |
| DeepSeek-R1-Distill-LLaMA-70B | LLaMA-3.3-70B | 70.0% |
蒸馏方法: 用 R1 生成高质量的推理链(800K+ 条),然后对小模型做 SFT。结果令人惊讶:32B 的蒸馏版本性能接近完整的 671B R1 模型。
这说明:一旦推理能力被大模型学到,可以通过蒸馏有效地传递给小模型,而不需要重新进行昂贵的 RL 训练。
九、Reasoning 模型的局限性与研究前沿
9.1 已知局限性
长推理链的可靠性问题: 模型生成的推理链有时会出现”推理链错误但答案恰好正确”的现象(模型找到了捷径),或反过来”推理链看似合理但答案错误”。
形式化验证的缺失: 现有的 Reasoning 模型无法进行真正的形式化证明(如 Coq/Lean),它们生成的是自然语言推理而非逻辑严格的证明。
领域限制: RL 训练的效果高度依赖于奖励信号的质量。数学和代码上的成功很难直接迁移到需要开放式推理的领域(如历史分析、哲学论证)。
奖励黑客在推理中的体现: 模型可能学会”看起来像推理”的格式,而实际上直接跳跃到答案。这种行为很难通过奖励信号检测。
9.2 研究前沿
可扩展的过程奖励: 如何以更低成本获得步骤级别的奖励信号?一个方向是 Monte Carlo 估计——对每个中间步骤,随机继续完成多次,用最终答案的成功率估计这个步骤的质量(避免了逐步人工标注)。
形式化数学(Formal Mathematics): 使用 Lean、Isabelle 等形式化证明语言训练模型,提供100%可靠的步骤级别验证。AlphaProof(DeepMind,2024)在 IMO 数学题上取得了突破,但需要将自然语言题目转化为 Lean 代码。
Reward Model 的自改进: 用当前最强的推理模型来持续改进奖励模型,形成自我对弈的循环,类似 AlphaGo 的 self-play。

