⚠️ 学习声明:本文档基于 Claude Code 2.1.88 源码分析整理,仅供个人学习研究使用,不做任何商业用途。
目标:从零基础到能读懂 GPT-4/Claude/Gemini/DeepSeek 级别模型的技术报告,理解其架构、训练方法和工程实现。
说明:本文档所有 arXiv 链接均已验证有效(2026年4月),所有 GitHub 链接均指向真实存在的仓库。
不含任何编造链接。
第一阶段:数学与深度学习基础(1-3个月)
1.1 必备数学基础
| 科目 | 重点内容 | 推荐资料 |
|---|---|---|
| 线性代数 | 矩阵乘法、特征值、SVD | Gilbert Strang《Introduction to Linear Algebra》,MIT OCW 18.06 |
| 微积分 | 链式法则、梯度、偏导 | 《Calculus》Stewart,或 MIT OCW 18.01 |
| 概率统计 | 分布、期望、最大似然、贝叶斯 | Stanford CS229 概率复习讲义 |
| 信息论 | 熵、KL 散度、交叉熵 | 《Elements of Information Theory》第 1-3 章 |
| 最优化 | SGD、Adam、学习率调度 | 《Optimization for Machine Learning》综述 |
1.2 深度学习入门
强烈推荐按顺序学,不要跳步:
1. 3Blue1Brown 神经网络可视化系列(YouTube)
这是目前可视化效果最好的入门材料,共 4 集:
- 第 1 集:”But what is a Neural Network?” — 感知机到多层网络
- 第 2 集:”Gradient descent, how neural networks learn” — 反向传播直觉
- 第 3 集:”What is backpropagation really doing?” — 数学推导
- 第 4 集:”Backpropagation calculus” — 链式法则细节
频道地址:3Blue1Brown YouTube 频道(搜索”Neural Network”即可找到该系列)
2. Andrej Karpathy《Neural Networks: Zero to Hero》(YouTube 视频 + GitHub 代码)
Karpathy 前 Tesla AI 总监、OpenAI 联合创始人,这套视频是他手把手从零构建各类语言模型:
- 第 1 集:micrograd — 从标量反向传播开始,实现一个微型自动求导库(84 行 Python)
- 第 2-4 集:makemore — 字符级语言模型,N-gram → MLP → RNN
- 第 5 集:Let’s build GPT from scratch — 最重要,230 行实现 Transformer
- 第 6 集:Let’s build the GPT tokenizer — BPE 分词
配套代码仓库:karpathy/ng-video-lecture(4600+ stars,包含视频中的全部代码)
3. CS224N(Stanford NLP,最直接相关)
斯坦福大学自然语言处理课程,每年更新,包含完整 Transformer 讲解:
- 涵盖:词向量 → RNN → Attention → Transformer → 预训练 → LLM 对齐
- 历年视频可在 YouTube 搜索”Stanford CS224N”
- 作业包含实现 Attention、训练 GPT 等
4. fast.ai《Practical Deep Learning for Coders》
Jeremy Howard 的自顶向下教学法,先用后理解:
- 官网:fast.ai 免费课程(免费,包含视频+Jupyter Notebook)
- 特点:第一课就跑一个图像分类模型,边做边学理论
第二阶段:Transformer 架构深入(1-2个月)
2.1 奠基性论文(必读,按年份顺序)
📄 Attention Is All You Need(2017)
- arXiv: 1706.03762 - Attention Is All You Need(Vaswani 等,Google Brain)
- 核心贡献: 提出 Transformer 架构,完全抛弃 RNN/CNN,仅用注意力机制
- 关键技术:
- Multi-Head Self-Attention:$\text{Attention}(Q,K,V) = \text{softmax}!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
- 位置编码(Positional Encoding):正弦/余弦函数
- 残差连接 + Layer Normalization
- 编码器-解码器结构(用于翻译任务)
- 为什么重要: 这是整个 LLM 时代的起点,GPT/BERT/Claude/Gemini 全部基于此
- 建议学法: 先看论文,再看 Karpathy 的”Let’s build GPT”视频,两者配合理解最快
📄 GPT-3: Language Models are Few-Shot Learners(2020)
- arXiv: 2005.14165 - Language Models are Few-Shot Learners(Brown 等,OpenAI)
- 规模: 175B 参数,在 300B tokens 上训练
- 核心贡献:
- 首次大规模证明 in-context learning(few-shot 无需微调)
- 展示 emergent abilities(涌现能力)随规模出现
- 为 ChatGPT 等产品奠定基础
- 关键发现: 随参数量增大,模型无需任何梯度更新即可执行新任务,只需在 prompt 中给几个例子
- 局限性: 没有 RLHF,输出不对齐,后来被 InstructGPT 改进
📄 Scaling Laws for Neural Language Models(2020)
- arXiv: 2001.08361 - Scaling Laws for Neural Language Models(Kaplan 等,OpenAI)
- 核心发现: 语言模型的损失呈幂律关系下降:
- $L(N) \propto N^{-0.076}$(模型参数量)
- $L(D) \propto D^{-0.095}$(训练数据量)
- $L(C) \propto C^{-0.050}$(计算量)
- 结论: 在给定计算预算下,应优先扩大模型,数据可以相对少
- 被 Chinchilla 推翻: 2022 年 Chinchilla 论文发现这个结论有误,实际上模型和数据应等比增长(见第三阶段)
2.2 动手代码实现(必做,理解比看论文更深)
# 1. nanoGPT:Karpathy 写的最简洁 GPT 实现(约800行代码) |
注意: Karpathy 于 2025年11月在 README 中提到 nanoGPT 已不再更新,并推荐了新的 karpathy/nanochat 仓库。nanoGPT 依然是学习的最佳资料,代码非常简洁。
2.3 现代 Transformer 架构优化论文
这些论文解释了为什么现代 LLM(LLaMA/DeepSeek/Qwen)和原始 Transformer 架构有所不同:
📄 FlashAttention(2022)
- arXiv: 2205.14135 - FlashAttention(Dao 等,Stanford)
- 解决的问题: 标准注意力计算复杂度 $O(N^2)$,长序列时 GPU HBM 带宽成为瓶颈
- 方法: IO-aware 计算,将注意力计算分块(tiling),减少 HBM 读写次数
- 效果: BERT 训练快 15%,GPT-2 快 3 倍,同时支持更长上下文
- 影响: 现在几乎所有训练框架都使用 FlashAttention,是工程必读
📄 RoFormer:RoPE 旋转位置编码(2021)
- arXiv: 2104.09864 - RoFormer: Enhanced Transformer with Rotary Position Embedding(苏剑林等)
- 解决的问题: 原始 Transformer 的正弦位置编码不能很好地外推到训练时未见过的长度
- 方法: 用旋转矩阵编码绝对位置,自然携带相对位置信息
- 数学: $f(x_m, m) = R_m x_m$,其中 $R_m$ 是旋转矩阵
- 影响: LLaMA、DeepSeek、Qwen 等几乎所有现代模型都使用 RoPE,是必须理解的技术
- 苏剑林是国内 NLP 研究者,他的博客(kexue.fm)对 RoPE 有详细中文解析
📄 Switch Transformers:通向万亿参数的稀疏 MoE(2021)
- arXiv: 2101.03961 - Switch Transformers(Fedus, Zoph, Shazeer,Google)
- 解决的问题: 密集模型每次推理都激活全部参数,计算成本随参数量线性增长
- 方法: Mixture-of-Experts(MoE)稀疏激活,每个 token 只路由到部分专家
- 核心机制: Router 网络决定每个 token 发送到哪个专家(FFN 子层),训练 1T 参数模型但每次激活约 1/8 的参数
- 影响: DeepSeek-V2/V3、Qwen2.5 的 MoE 变体都直接继承自这个方向
第三阶段:大模型训练方法(1-2个月)
3.1 预训练基础
📄 Chinchilla:训练计算最优大语言模型(2022)
- arXiv: 2203.15556 - Training Compute-Optimal Large Language Models (Chinchilla)(Hoffmann 等,DeepMind)
- 核心结论: 推翻了 Kaplan 2020 年的 Scaling Laws,发现模型参数量和训练 tokens 数量应等比增长
- 旧结论:固定预算优先扩大模型
- 新结论:每个参数应该见到约 20 个 tokens
- 公式:$N_{opt} \propto C^{0.5}$,$D_{opt} \propto C^{0.5}$
- 验证: 训练了一个 70B 参数 + 1.4T tokens 的 Chinchilla 模型,超越了参数量大 4 倍的 Gopher(280B)
- 影响: LLaMA 系列直接采用 Chinchilla 最优比例,DeepSeek 扩展到更大 token 数
📄 LLaMA 1:开放高效基础语言模型(2023)
- arXiv: 2302.13971 - LLaMA: Open and Efficient Foundation Language Models(Touvron 等,Meta)
- 规模: 7B/13B/33B/65B 四个尺寸
- 核心贡献:
- 完全使用公开数据集(CommonCrawl + C4 + GitHub + Wikipedia 等)训练
- 证明了充分训练的小模型能超越参数量更大但训练不足的模型
- LLaMA-13B 超越 GPT-3 175B 在大多数 benchmark 上
- 架构改进(相对原始 Transformer):
- Pre-norm(RMSNorm 代替 LayerNorm)
- SwiGLU 激活函数
- RoPE 位置编码
- 取消绝对位置编码
- 历史意义: 开启了开源 LLM 时代,Alpaca/Vicuna 等大量微调模型基于此
📄 The Llama 3 Herd of Models(2024)
- arXiv: 2407.21783 - The Llama 3 Herd of Models(Grattafiori 等,Meta)
- 规模: 8B/70B/405B 三个尺寸,405B 参数是 Meta 迄今最大开源模型
- 训练数据: 超过 15T tokens(相比 LLaMA 2 的 2T 增加了 7.5 倍)
- 上下文长度: 128K tokens
- 架构细节(完整公开):
- 标准 Dense Transformer(非 MoE)
- Grouped Query Attention(GQA)减少 KV Cache
- RoPE 位置编码,theta=500,000(支持更长上下文)
- 词汇表扩展到 128K tokens
- 训练细节:
- Pre-training:cosine 学习率调度,3.2×10^25 FLOPs
- Post-training:SFT → Rejection Sampling → DPO
- 首次大规模使用合成数据做后训练
- 为什么值得精读: Meta 是目前披露训练细节最完整的顶级机构,405B 模型与 GPT-4 同级别,报告长达 92 页
📄 DeepSeek-V3 Technical Report(2024)
- arXiv: 2412.19437 - DeepSeek-V3 Technical Report(DeepSeek-AI)
- 规模: 671B 总参数,每次推理激活 37B
- 架构(最详细的顶级 MoE 模型报告):
- Multi-head Latent Attention(MLA):将 KV Cache 压缩为低秩潜向量,节省 93% KV Cache 内存
- DeepSeekMoE:将 FFN 层替换为稀疏 MoE,每层 256 个专家,每 token 选 8 个(含 1 个共享专家)
- Auxiliary-loss-free 负载均衡:不再依赖辅助损失维持路由均衡,而是用 bias 机制
- Multi-Token Prediction:训练时同时预测多个未来 token,提高训练效率
- 训练成本: 2.788M H800 GPU 小时(约 550 万美元),远低于 GPT-4 估计成本
- 训练数据: 14.8T tokens,涵盖中英文及代码
- FP8 混合精度训练:首次大规模应用于顶级模型训练
- GitHub: deepseek-ai/DeepSeek-V3(模型权重公开)
📄 Qwen2.5 Technical Report(2024)
- arXiv: 2412.15115 - Qwen2.5 Technical Report(Qwen Team,阿里)
- 规模: 0.5B/1.5B/3B/7B/14B/32B/72B 全系列
- 训练数据: 18T tokens(前代 7T 的 2.5 倍)
- 后训练: 超过 100 万条 SFT 样本 + 多阶段 RL
- 能力: 72B 模型在多个 benchmark 超越 LLaMA 3 405B
- 为什么值得读: Alibaba 公开了完整的数据配比、训练超参、评测细节,对工程实践参考价值极高
3.2 对齐训练方法
📄 InstructGPT(RLHF)(2022)
- arXiv: 2203.02155 - Training language models to follow instructions with human feedback (InstructGPT)(Ouyang 等,OpenAI)
- 核心问题: 大语言模型会输出有毒/虚假/无用内容,如何让它更符合人类意图?
- 方法(三步流程):
- SFT(监督微调): 人工标注员编写理想回答,用它微调 GPT-3
- RM(奖励模型训练): 让模型生成多个回答,人工排序,训练奖励模型
- PPO(强化学习): 用奖励模型作为信号,用 PPO 算法进一步优化语言模型
- 关键发现: 1.3B InstructGPT 比 175B GPT-3 更受人类偏好(100 倍参数差距!)
- 历史意义: 这是 ChatGPT 的直接前身,RLHF 流程被 Anthropic/Google/Meta 全部采用
📄 Constitutional AI(CAI)(2022)
- arXiv: 2212.08073 - Constitutional AI: Harmlessness from AI Feedback(Bai 等,Anthropic)
- 核心问题: RLHF 需要大量人工标注有害内容,成本高且对标注员有心理负担
- 方法: 让 AI 自己根据”宪法”(一组原则)来评判和改进回答
- SL-CAI(监督阶段): 模型先给出回答 → 引用宪法原则提出批评 → 修改回答 → 用修改后的回答微调
- RL-CAI(强化阶段): 用 AI 偏好反馈(RLAIF)替代人工偏好,训练奖励模型
- 主要原则类型: 无害性、诚实性、有帮助性(Helpful, Harmless, Honest)
- 历史意义: Claude 系列所有版本的训练哲学基础,理解 Claude 行为模式的必读文献
📄 Direct Preference Optimization(DPO)(2023)
- arXiv: 2305.18290 - Direct Preference Optimization(Rafailov 等,Stanford)
- 解决的问题: PPO 训练不稳定、超参数敏感、需要同时维护多个模型
- 方法: 将 RL 问题转化为分类问题,直接在偏好数据上优化
- 优势: 训练更稳定,不需要单独的奖励模型
- 现状: LLaMA 3、Qwen2.5 的后训练都使用了 DPO 或其变体
3.3 推理能力(Reasoning Models)—— 2025-2026 年最核心方向
这是目前 AI 最前沿的研究方向,claude-opus-4/o4 的核心能力所在:
📄 Chain-of-Thought Prompting(2022)
- arXiv: 2201.11903 - Chain-of-Thought Prompting(Wei 等,Google)
- 发现: 让模型”思考步骤”然后再给答案,可以大幅提升数学/逻辑推理能力
- 触发方式: 只需在 few-shot 示例中加入中间推理步骤
📄 DeepSeek-R1(2025)—— 目前最完整公开的 Reasoning 模型
- arXiv: 2501.12948 - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-AI)
- 已发表于: Nature,2025年,645卷 633-638 页(罕见的 AI 论文登上 Nature)
- 核心贡献(完整公开了如何训练出 o1 级别的推理模型):
- DeepSeek-R1-Zero: 完全用强化学习(GRPO 算法)训练,不用任何 CoT 示范数据
- 奖励:数学/代码答案的对错(0 或 1)
- 涌现出”自我反思”、”验证”、”回溯”等推理模式——模型自发习得
- DeepSeek-R1: 在 R1-Zero 基础上加入少量人工 CoT 冷启动数据,改进可读性
- DeepSeek-R1-Zero: 完全用强化学习(GRPO 算法)训练,不用任何 CoT 示范数据
- 关键发现: 推理能力完全可以通过 RL 涌现,不需要人工标注的推理轨迹
- 影响: 这篇论文让业界意识到 o1/o3/claude-thinking 的机制,引发大量复现工作
- GitHub: deepseek-ai/DeepSeek-R1(包含模型权重和蒸馏版本)
第四阶段:工程与系统(并行学习)
4.1 分布式训练
训练 100B+ 参数的模型需要数千张 GPU,分布式训练是工程核心:
| 技术 | 论文/资料 | arXiv | 说明 |
|---|---|---|---|
| 张量并行 | Megatron-LM | 1909.08053 | NVIDIA,将单个矩阵分割到多个 GPU |
| 流水线并行 | GPipe | 1811.06965 | 将模型层分到不同 GPU |
| ZeRO 显存优化 | ZeRO | 1910.02054 | 微软 DeepSpeed,优化器/梯度/参数分片 |
| 3D 并行 | Megatron-LM v2 | 2104.04473 | 张量+流水线+数据并行结合 |
| PyTorch FSDP | PyTorch 官方文档 | — | Facebook 的全分片数据并行实现 |
4.2 推理优化
| 技术 | 核心思路 | 论文/资料 |
|---|---|---|
| KV Cache | 缓存已计算的 K/V,避免重复计算 | 所有 Transformer 教程均涵盖 |
| Speculative Decoding | 小模型草稿 + 大模型验证,并行化自回归生成 | arXiv 2211.17192 |
| Continuous Batching | 动态批处理,提高 GPU 利用率 | arXiv 2309.06180(vLLM 论文) |
| PagedAttention | KV Cache 分页管理,解决碎片化 | arXiv 2309.06180 |
| 量化(AWQ/GPTQ) | 将权重量化到 4bit,显著减少显存 | arXiv 2306.00978 |
| GGUF/llama.cpp | CPU 推理,量化格式 | ggerganov/llama.cpp |
4.3 实践框架
# 推理框架 |
第五阶段:前沿模型技术报告(精读清单)
5.1 OpenAI 系列
OpenAI 是 ChatGPT、GPT-4、o1/o3 的开发者,但其技术报告几乎不披露架构细节,主要是能力评测。
📄 GPT-4 Technical Report(2023)
- arXiv: 2303.08774 - GPT-4 Technical Report(OpenAI)
- 内容摘要: 100 页报告,主要内容是:
- 各类 benchmark 评测(MMLU/HumanEval/HellaSwag 等)
- 安全性评测(越狱、有害内容)
- 多模态能力(接受图像输入)
- 通过律师考试 top 10% 等人类水平评测
- 架构信息: 几乎为零。仅说”Transformer-based model”,不透露参数量、架构细节、训练数据
- 可预测性研究: OpenAI 提到他们基于小模型预测了 GPT-4 的性能,这是 scaling law 的核心体现
- 阅读价值: 了解评测方法论和安全评估框架,不适合学习架构
⚠️ OpenAI 的技术报告定位是”系统卡”而非论文,隐藏核心架构是其商业策略。真正想学架构请看 LLaMA 3 / DeepSeek-V3。
o1/o3 系列
- OpenAI 官网发布了 o1 System Card
- 这是能力描述文档,不含训练方法
- 训练方法参考 DeepSeek-R1(后者完整公开)
5.2 Anthropic / Claude 系列
Anthropic 的策略与 OpenAI 类似——从不公开模型架构,但他们在可解释性研究上投入极大。
📄 Constitutional AI(2022)
- arXiv: 2212.08073 - Constitutional AI: Harmlessness from AI Feedback(Bai 等,Anthropic)
- 详见第三阶段,这是理解 Claude 系列的关键论文
Anthropic 可解释性研究(transformer-circuits.pub)
Anthropic 研究团队发表于 transformer-circuits.pub,这些是公开最接近 Claude 内部机制的资料:
核心系列(按发表顺序):
A Mathematical Framework for Transformer Circuits(2021)
- 将 Transformer 分解为”电路”——注意力层的组合
- 证明了两层 Transformer 中注意力头的可组合性
In-context Learning and Induction Heads(2022)
- 发现”归纳头”(induction head)——模式 [A][B]…[A] → [B]
- 这是 LLM 能 few-shot 学习的核心机制
Toy Models of Superposition(2022)
- 神经网络如何在有限维度中存储超过维度数量的特征
- “叠加”(superposition)原理:特征用干扰较小的方向编码
Scaling Monosemanticity(2024)
- 在 Claude 3 Sonnet 上通过稀疏自编码器(SAE)识别出百万量级的可解释特征
- 找到了代表”金门大桥”、”道德困境”等概念的具体神经元
这些研究不涉及具体架构参数,但从机制层面解释了 Claude 为何如此”理解”文本。
Claude Model Cards
- Claude 3 Model Card(Claude 3 系列能力和安全描述)
- 注意:这是产品文档,非学术论文,不含技术细节
5.3 Google / Gemini 系列
Google 在技术报告的透明度上介于 OpenAI 和 Meta 之间:
📄 Gemini: A Family of Highly Capable Multimodal Models(2023)
- arXiv: 2312.11805 - Gemini: A Family of Highly Capable Multimodal Models(Gemini Team Google)
- 规模: Ultra、Pro、Nano 三档
- 核心亮点:
- 原生多模态:图像、音频、视频、文本统一在一个模型
- MMLU 88.0%,首个超越人类专家水平的模型
- 架构基于 Transformer,但细节不完全公开
- 架构提示: 使用了 Multi-Query Attention,支持多模态输入的 token 化方案
📄 Gemini 1.5: Unlocking multimodal understanding across millions of tokens(2024)
- arXiv: 2403.05530 - Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context(Gemini Team Google)
- 核心创新:长上下文处理
- 支持 1M tokens 的上下文窗口(当时 GPT-4 Turbo 为 128K,Claude 3 为 200K)
- 甚至测试了 10M tokens 下的 >99% 召回率
- 通过 Mixture-of-Experts 架构实现高效处理
- 长上下文测试: 将整部电影(600 页剧本)、1 小时视频、完整代码库放入上下文
- 特殊测试: 给模型一本 Kalamang 语语法书(全球不足 200 名使用者),学会后进行翻译
5.4 DeepSeek 系列(架构最完整公开)
DeepSeek 是目前技术透明度最高的顶级模型研究机构,每篇报告都包含完整架构和训练细节:
DeepSeek 技术演进路线
DeepSeek-V1 (67B, Dense) |
📄 DeepSeek-V2(2024)
- arXiv: 2405.04434 - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 参数: 236B 总参数,21B 激活
- 核心创新(首次提出,后被 V3 继承):
- MLA(Multi-head Latent Attention): 将 KV Cache 从 $O(nH d_h)$ 压缩为 $O(n d_c)$,$d_c \ll H d_h$,节省 93.3% KV Cache
- DeepSeekMoE: 细粒度专家划分,每层设置 1 个共享专家 + 若干路由专家
- 成本: 比 DeepSeek 67B 节省 42.5% 训练成本,同时性能更强
📄 DeepSeek-V3(2024)
- 见第三阶段详细介绍
- GitHub: deepseek-ai/DeepSeek-V3
- Hugging Face:
deepseek-ai/DeepSeek-V3(权重公开下载)
📄 DeepSeek-R1(2025)
- 见第三阶段详细介绍
- Nature 发表: Volume 645, 633–638 (2025),DOI:
10.1038/s41586-025-09422-z - GitHub: deepseek-ai/DeepSeek-R1
5.5 Meta / LLaMA 系列
Meta 是开源 LLM 生态的核心推动力,技术报告透明度极高:
LLaMA 系列演进
LLaMA 1 (7B-65B, 2023年2月) arXiv: 2302.13971 |
Meta 的 LLaMA 系列是目前商业级开源模型的事实标准,大量微调模型(Alpaca、Vicuna、WizardLM 等)基于此。
5.6 阿里 / Qwen 系列
Qwen 系列是中国发布的最强开源 LLM 家族:
Qwen (7B/14B/72B) → Qwen1.5 → Qwen2 → Qwen2.5 (2024) |
Qwen2.5 Technical Report 是其中最完整的报告,18T tokens 训练数据的处理方式值得学习。
第六阶段:关键技术细节论文(深入研究)
6.1 注意力机制优化
| 论文 | arXiv | 核心贡献 |
|---|---|---|
| FlashAttention | 2205.14135 | IO-aware 注意力,减少 HBM 读写 |
| FlashAttention-2 | 2307.08691 | 进一步减少非矩阵乘法 FLOPs |
| Grouped Query Attention (GQA) | 2305.13245 | 多头 Query 但共享 KV,平衡效率和质量 |
| Multi-Query Attention (MQA) | 1911.02150 | 所有 Query 头共享单个 KV |
| Multi-head Latent Attention (MLA) | DeepSeek-V2 | 低秩压缩 KV,DeepSeek 原创 |
6.2 位置编码
| 论文 | arXiv | 核心贡献 |
|---|---|---|
| RoPE | 2104.09864 | 旋转矩阵编码,外推性好 |
| ALiBi | 2108.12409 | 线性 bias,无需修改可外推 |
| YaRN | 2309.00071 | RoPE 的长度外推改进方案 |
6.3 FFN 和归一化
| 技术 | 论文/来源 | 说明 |
|---|---|---|
| SwiGLU | arXiv 2002.05202 | Swish + GLU,LLaMA 系列使用 |
| RMSNorm | arXiv 1910.07467 | 比 LayerNorm 更高效,Pre-norm |
| Pre-norm vs Post-norm | 多篇论文对比 | Pre-norm 训练更稳定,现代模型全用 |
6.4 MoE 架构深入
| 论文 | arXiv | 核心贡献 |
|---|---|---|
| Switch Transformer | 2101.03961 | 简化 MoE 路由(top-1) |
| GLaM | 2112.06905 | Google 1.2T 参数 MoE |
| Mixtral 8x7B | 2401.04088 | Mistral 的稀疏 MoE,完整公开 |
| DeepSeekMoE | 2401.06066 | 细粒度专家 + 共享专家架构 |
第七阶段:Anthropic 可解释性研究(理解 AI 内部机制)
transformer-circuits.pub 是 Anthropic 研究团队发表的机制解析研究,对理解 LLM 为什么能工作有独特价值。
核心系列(按重要性排序)
1. A Mathematical Framework for Transformer Circuits(2021)
- 方法:将 Transformer 分解为电路(computational graph)
- 关键发现:注意力头可以”组合”——两个头串联可以实现复杂操作
- 适合:有一定 Transformer 基础后阅读
2. In-context Learning and Induction Heads(2022)
- 关键发现:归纳头(induction head)是 in-context learning 的机制
- 归纳头功能:在序列 [A][B]…[A] 后预测 [B]
- 影响:解释了 LLM 为什么能从少量示例中学习
3. Toy Models of Superposition(2022)
- 问题:模型参数量有限,但能表示的概念远多于维度数
- 发现:叠加现象——多个特征共享同一方向,用干扰小的角度分离
- 影响:解释了为什么神经元不对应单一概念,激发了 SAE 研究
4. Scaling Monosemanticity(2024)
- 方法:在 Claude 3 Sonnet 上训练稀疏自编码器(Sparse Autoencoder)
- 成果:识别出 1600 万个可解释特征,包括:
- 代表具体概念的特征(金门大桥、DNA 双螺旋)
- 代表抽象概念的特征(欺骗、道德冲突)
- 可以通过激活/抑制这些特征改变模型行为
学习资源汇总
教材
| 书名 | 作者 | 适合阶段 | 说明 |
|---|---|---|---|
| 《Deep Learning》 | Goodfellow, Bengio, Courville | 基础阶段 | 深度学习圣经,数学严谨 |
| 《Dive into Deep Learning》 | 李沐等 | 入门+进阶 | 中英双语,含代码 |
| 《Natural Language Processing with Transformers》 | HuggingFace | Transformer 应用 | 实践导向,大量代码示例 |
| 《The Hundred-Page Machine Learning Book》 | Andriy Burkov | 快速全览 | 100页梳理核心概念 |
| 《Build a Large Language Model (From Scratch)》 | Sebastian Raschka | LLM 实现 | 2024年新书,从零构建 |
视频课程(全部免费)
| 课程名 | 来源 | 内容 | 推荐指数 |
|---|---|---|---|
| Neural Networks: Zero to Hero | Andrej Karpathy (YouTube) | 从零实现 micrograd/nanoGPT | ⭐⭐⭐⭐⭐ |
| CS224N: Natural Language Processing with Deep Learning | Stanford (YouTube) | NLP + Transformer 系统课程 | ⭐⭐⭐⭐⭐ |
| Practical Deep Learning for Coders | fast.ai | 自顶向下,注重实践 | ⭐⭐⭐⭐⭐ |
| 李沐读论文系列 | 李沐 (B站/YouTube) | 逐篇精读经典论文,中文 | ⭐⭐⭐⭐⭐ |
| Hugging Face NLP Course | HuggingFace (官网) | Transformer 实际使用 | ⭐⭐⭐⭐ |
| DeepLearning.AI Short Courses | deeplearning.ai | LLM 各专题短课 | ⭐⭐⭐⭐ |
| UCBerkeley CS182: Deep Learning | UC Berkeley (YouTube) | 理论+实践均衡 | ⭐⭐⭐⭐ |
李沐读论文 强烈推荐中文学习者:他逐段精读 GPT、BERT、Transformer、ResNet 等经典论文,在 B 站和 YouTube 均有,共 100+ 集。
高质量技术博客(内容经过验证)
| 博客 / 作者 | 特点 |
|---|---|
| Lilian Weng’s Blog | OpenAI 研究员,长篇综述,数学严谨(Attention、RL、Prompt Engineering 等) |
| Sebastian Raschka | LLM 技术细节,大量代码,每月 newsletter |
| Jay Alammar | 用动画解释 Transformer/BERT/GPT,最直观 |
| Chip Huyen | ML 系统工程,书籍《Designing ML Systems》作者 |
| Eugene Yan | LLM 应用和工程最佳实践 |
| 苏剑林 科学空间 | 国内 NLP 研究者,RoPE 原作者,中文技术深度文章 |
GitHub 重要仓库(已验证存在)
学习类:
- karpathy/nanoGPT — GPT 最简实现(56k stars)
- karpathy/ng-video-lecture — Zero to Hero 视频代码(4.6k stars)
推理框架:
- vllm-project/vllm — 高性能推理(40k+ stars)
- ollama/ollama — 本地运行 LLM(130k+ stars)
- ggerganov/llama.cpp — CPU 推理(70k+ stars)
训练框架:
- huggingface/transformers — 最广泛使用的 LLM 库(140k+ stars)
- huggingface/trl — RLHF/DPO 训练
- microsoft/DeepSpeed — 分布式训练(35k+ stars)
- NVIDIA/Megatron-LM — 大规模预训练
模型权重(公开可下载):
- deepseek-ai/DeepSeek-V3 — DeepSeek-V3 权重
- deepseek-ai/DeepSeek-R1 — DeepSeek-R1 权重
- Meta LLaMA 3:申请后从 meta.ai 下载
- Qwen2.5:Qwen on Hugging Face
arXiv 论文索引(所有链接已验证)
| 论文 | 链接 | 验证状态 |
|---|---|---|
| Attention Is All You Need | arXiv 1706.03762 | ✅ |
| GPT-3 (Language Models are Few-Shot Learners) | arXiv 2005.14165 | ✅ |
| Scaling Laws for Neural Language Models | arXiv 2001.08361 | ✅ |
| InstructGPT (RLHF) | arXiv 2203.02155 | ✅ |
| Constitutional AI | arXiv 2212.08073 | ✅ |
| Chinchilla | arXiv 2203.15556 | ✅ |
| LLaMA 1 | arXiv 2302.13971 | ✅ |
| The Llama 3 Herd of Models | arXiv 2407.21783 | ✅ |
| GPT-4 Technical Report | arXiv 2303.08774 | ✅ |
| Gemini 1.0 | arXiv 2312.11805 | ✅ |
| Gemini 1.5 | arXiv 2403.05530 | ✅ |
| DeepSeek-V2 | arXiv 2405.04434 | ✅ |
| DeepSeek-V3 | arXiv 2412.19437 | ✅ |
| DeepSeek-R1 | arXiv 2501.12948 | ✅ |
| Qwen2.5 | arXiv 2412.15115 | ✅ |
| FlashAttention | arXiv 2205.14135 | ✅ |
| RoPE (RoFormer) | arXiv 2104.09864 | ✅ |
| Switch Transformers | arXiv 2101.03961 | ✅ |
推荐学习顺序(6个月计划)
【月份 1-2:基础建设】 |
关于 Claude Opus-4 / claude-4 系列的具体限制
以下信息 Anthropic 从未公开:
- 模型参数量
- 架构图(是否 MoE、层数、头数)
- 训练数据来源和规模
- 具体的 CAI 迭代次数和宪法内容
- Thinking 模式(extended thinking)的具体实现机制
- 推理优化方案
能接近理解 Claude 工作原理的公开资料(均已验证):
| 资料 | 链接 | 可获取的信息 |
|---|---|---|
| Constitutional AI 论文 | arXiv 2212.08073 | Claude 训练的对齐哲学和自改进流程 |
| Anthropic 可解释性研究 | transformer-circuits.pub | Claude 3 Sonnet 内部特征的直接分析 |
| DeepSeek-R1 | arXiv 2501.12948 | 同类 Reasoning 模型的完整训练方法 |
| LLaMA 3 报告 | arXiv 2407.21783 | 同代顶级模型的完整架构参考 |
| GPT-4 技术报告 | arXiv 2303.08774 | 同代闭源模型的能力边界和安全评估 |
关键洞见:理解”顶级模型”差距在哪里
读完以上资料后,你会发现顶级模型和普通模型的差距主要来自:
1. 训练数据质量(比数量更重要)
- LLaMA 3 在 15T tokens 上训练(包含大量筛选后的高质量数据)
- DeepSeek-V3 用了 14.8T tokens,强调数据多样性和质量过滤
2. 后训练(Post-training)
- 预训练只是基础,RLHF/CAI/DPO 决定了模型是否”好用”
- Claude 的差异化来自 Constitutional AI 的价值对齐
3. 架构工程细节
- RoPE 外推(支持更长上下文)
- MLA(DeepSeek 的 KV Cache 压缩)
- FlashAttention(让长序列训练实际可行)
4. Reasoning(推理能力)
- 2025年起的核心竞争力
- DeepSeek-R1 证明:纯 RL 训练即可涌现出自我反思、验证、回溯等推理行为
- 这与 claude-opus-4 的 extended thinking 机制高度类似
第八阶段:美国 AI/LLM 技术圈子与大佬资源
这是目前美国 AI 技术圈最活跃、信息密度最高的一批人和社区。全部链接均已实际访问确认有效。
🧑🔬 顶级研究员个人主页与博客
Andrej Karpathy — 最适合入门的讲师
- 身份: OpenAI 创始成员,Tesla AI 前负责人,Eureka Labs 创始人
- 主页: karpathy.ai
- YouTube(最重要): Andrej Karpathy YouTube 频道
- 🎬 Deep Dive into LLMs like ChatGPT — 3小时 LLM 底层原理完全解析
- 🎬 Neural Networks: Zero to Hero — 从零手写神经网络到 GPT,代码级教学
- 🎬 Intro to Large Language Models — 面向大众的 LLM 入门
- 🎬 State of GPT @ Microsoft Build 2023 — GPT 训练流程全景图
- 博客(Bear Blog): karpathy.bearblog.dev/blog
- 名文:A Recipe for Training Neural Networks — 调参圣经
- 名文:Software 2.0 — AI 改变软件工程的预言
- GitHub: github.com/karpathy(nanoGPT / micrograd / ng-video-lecture 都在这里)
- Twitter/X: @karpathy
Lilian Weng — OpenAI 前安全研究负责人,技术写作天花板
- 身份: OpenAI 前 VP of Safety,深度学习研究员
- 博客(Lil’Log): lilianweng.github.io
- 📄 The Transformer Family v2.0 — Transformer 变体大全
- 📄 Prompt Engineering — 提示词工程系统综述
- 📄 LLM Powered Autonomous Agents — Agent 系统设计框架
- 📄 Why We Think — 推理模型的数学思考(2025 最新)
- 📄 Reward Hacking in RL — RLHF 训练中的奖励攻击
- 📄 Large Transformer Model Inference Optimization — 推理加速系统综述
- Twitter/X: @lilianweng
Jay Alammar — 可视化解释 Transformer 的第一人
- 身份: Cohere 研究员,LLM 科普创作者,著有《Hands-On Large Language Models》
- 博客(旧文章): jalammar.github.io
- 📄 The Illustrated Transformer — 世界上转发最多的 Transformer 图解
- 📄 The Illustrated GPT-2 — GPT-2 可视化分解
- 📄 How GPT3 Works - Visualizations and Animations
- 📄 The Illustrated BERT
- Substack(新文章都在这里): Language Models & Co. — 32,000+ 订阅者
- YouTube: Jay Alammar YouTube
- Twitter/X: @JayAlammar
Sebastian Raschka — LLM 架构比较与从零构建的专家
- 身份: Lightning AI 研究员,《Build a Large Language Model from Scratch》作者
- 博客: sebastianraschka.com/blog
- 📄 The Big LLM Architecture Comparison — DeepSeek 到 GLM-5 的架构全对比(2025)
- 📄 Understanding Reasoning LLMs — Reasoning 模型训练方法四大路径
- 📄 LLM Research Papers: The 2025 List — 200+ 篇精选论文手工整理
- 📄 A Visual Guide to Attention Variants — MHA/GQA/MLA/稀疏注意力全对比
- 📄 Building LLMs from the Ground Up: 3-hour Workshop — 3小时编程课
- Newsletter(Ahead of AI): magazine.sebastianraschka.com — 179,000+ 订阅者
- YouTube: Sebastian Raschka YouTube
- Twitter/X: @rasbt
Chip Huyen — MLOps 与 AI 系统工程专家
- 身份: Stanford 讲师,AI 系统设计专家,《Designing Machine Learning Systems》作者
- 博客: huyenchip.com/blog
- 📄 RLHF: Reinforcement Learning from Human Feedback — RLHF 完整技术指南
- 📄 Building LLM applications for production — LLM 落地工程难点
- 📄 Agents — 智能体系统设计(2025 最新)
- 📄 Open challenges in LLM research — LLM 研究未解难题
- 📄 Building A Generative AI Platform — GenAI 平台架构设计
- Twitter/X: @chipro
Eugene Yan — Anthropic 工程师,LLM 落地实践专家
- 身份: Anthropic MTS,曾在 Amazon/Alibaba 领导 ML 团队
- 博客: eugeneyan.com
- 📄 What We’ve Learned From A Year of Building with LLMs — 工程师视角的 LLM 落地经验
- 📄 Patterns for Building LLM-based Systems & Products — LLM 系统设计模式大全
- 📄 Evaluating the Effectiveness of LLM-Evaluators — LLM-as-Judge 评估方法
- 📄 Prompting Fundamentals and How to Apply them Effectively
- Twitter/X: @eugeneyan
Nathan Lambert — RLHF/对齐研究权威
- 身份: AllenAI 研究员,RLHF 核心贡献者
- Newsletter(Interconnects): interconnects.ai — 64,000+ 订阅者,AI 前沿研究评论,去除炒作
Sebastian Ruder — NLP 研究综述专家
- 身份: Google DeepMind 研究员,NLP 综述写作知名人物
- Newsletter(NLP News): newsletter.ruder.io — 29,000+ 订阅者,每期追踪 NLP 重要进展
📰 必关注的 Newsletter / Substack
| 名称 | 链接 | 作者 | 订阅量 | 特点 |
|---|---|---|---|---|
| Ahead of AI | magazine.sebastianraschka.com | Sebastian Raschka | 179k+ | LLM 论文精读 + 架构解析 |
| Language Models & Co. | newsletter.languagemodels.co | Jay Alammar | 32k+ | 可视化图解新模型 |
| Interconnects | interconnects.ai | Nathan Lambert | 64k+ | 对齐/RLHF 前沿,无废话 |
| NLP News | newsletter.ruder.io | Sebastian Ruder | 29k+ | NLP 月报,论文追踪 |
| Lil’Log | lilianweng.github.io | Lilian Weng | — | 深度技术博客,综述质量极高 |
💬 社区与论坛
| 社区 | 链接 | 说明 |
|---|---|---|
| r/MachineLearning | reddit.com/r/MachineLearning | Reddit 最大 ML 学术社区,论文讨论 / AMA(问答) |
| r/LocalLLaMA | reddit.com/r/LocalLLaMA | 本地部署 LLM 爱好者聚集地,量化/fine-tune 实践 |
| Hugging Face Forums | discuss.huggingface.co | 模型使用/微调技术问题,官方开发者参与 |
| EleutherAI Discord | discord.gg/eleutherai | 开源 LLM 研究社区,Pythia/RWKV 等项目发源地 |
🎬 YouTube 频道推荐
| 频道 | 特点 |
|---|---|
| Andrej Karpathy | 最权威的从零构建 LLM 视频教程,代码级讲解 |
| Yannic Kilcher | 每周精读热门论文,讲解清晰,有技术深度 |
| Umar Jamil | 手写实现 LLaMA/Mistral/Stable Diffusion,代码精讲 |
| Sebastian Raschka | LLM 编程课,学术风格,配套代码 |
| 3Blue1Brown | 数学可视化,Transformer/神经网络原理动画解释 |
🐦 Twitter/X 必关注列表
以下均为真实账号,可直接在 X 上搜索:
| 账号 | 身份 | 关注理由 |
|---|---|---|
| @karpathy | Eureka Labs / ex-OpenAI / ex-Tesla AI | 频繁分享技术洞察,LLM 教育内容 |
| @lilianweng | ex-OpenAI VP Safety | 发布研究结果和技术评论 |
| @JayAlammar | Cohere / 科普作家 | 最新模型图解,第一手发布 |
| @rasbt | Lightning AI | LLM 论文速评,每月论文整理 |
| @chipro | Stanford / AI Systems | MLOps 和系统工程视角 |
| @eugeneyan | Anthropic | LLM 工程落地实践分享 |
| @ylecun | Meta Chief AI Scientist / 图灵奖 | 学术权威,反对过度炒作的声音 |
| @goodfellow_ian | Apple / GAN 发明者 | 深度学习基础研究,学术视角 |
| @GaryMarcus | NYU 教授 | AI 批评视角,保持对行业清醒认知 |
| @hardmaru | Google Brain | 创意 AI 研究,分享有趣论文 |
📌 推荐信息获取路径
如果只能选一个起点,按此顺序走:
① Andrej Karpathy "Neural Networks: Zero to Hero" 系列视频(YouTube) |
这条路径覆盖:代码基础 → 论文追踪 → 深度理解 → 实时动态 → 社区实践,是美国 AI 工程师/研究员的主流信息获取路径。
十一、经典论文分级阅读清单
11.1 入门必读(理解 Transformer)
| 论文 | 关键概念 | 时间 |
|---|---|---|
| Vaswani et al. (2017). “Attention Is All You Need” | Self-Attention, Multi-Head, Positional Encoding | 3h |
| Devlin et al. (2019). “BERT” | Pre-training, Fine-tuning 范式 | 2h |
| Radford et al. (2019). “GPT-2” | Autoregressive LM, Zero-shot | 1h |
11.2 进阶(理解现代 LLM)
| 论文 | 关键概念 | 时间 |
|---|---|---|
| Brown et al. (2020). “GPT-3” | In-context Learning, Scaling Laws | 3h |
| Ouyang et al. (2022). “InstructGPT” | RLHF, Reward Modeling | 4h |
| Wei et al. (2022). “Chain-of-Thought” | CoT Prompting, Reasoning | 2h |
| Yao et al. (2023). “ReAct” | Agent 循环, Tool Use | 2h |
11.3 前沿(理解 Agent 与推理)
| 论文 | 关键概念 | 时间 |
|---|---|---|
| Schick et al. (2023). “Toolformer” | LLM 自主工具调用 | 2h |
| Yang et al. (2024). “SWE-Agent” | Agent-Computer Interface | 2h |
| Shinn et al. (2024). “Reflexion” | Agent 自我反思 | 2h |
| Liu et al. (2024). “Lost in the Middle” | 长上下文注意力分布 | 1h |
| Delétang et al. (2024). “Language Modeling Is Compression” | LLM = 压缩器 | 2h |
十二、动手实践路线
12.1 从零构建 Transformer
第 1 周: 用 PyTorch 实现单头 Self-Attention |
参考代码: Karpathy 的 nanoGPT (~300 行核心代码)。
12.2 Agent 系统实战
第 1-2 周: ReAct Pattern 实现 |
12.3 模型评估与对齐
| 实践 | 工具 | 时间 |
|---|---|---|
| 评估 LLM 在 SWE-bench 上的表现 | SWE-bench harness | 1d |
| 微调开源模型(LLaMA/Mistral) | HuggingFace TRL / Axolotl | 1w |
| RLHF 实践 | TRL library | 2w |
| Prompt Engineering 系统化实验 | PromptBench | 1d |
十三、持续追踪与社区资源
13.1 必追的论文仓库
| 仓库 | 内容 | 频率 |
|---|---|---|
| papers-we-love | 经典 CS 论文合集 | 静态 |
| awesome-llm | LLM 论文/工具全索引 | 周更 |
| daily-paper | HuggingFace 每日论文推荐 | 日更 |
| Arxiv Sanity | Karpathy 的论文筛选器 | 日更 |
13.2 推荐博客与 Newsletter
- Lilian Weng’s Blog (OpenAI Safety): RLHF, Reward Modeling 深度讲解
- Jay Alammar: Transformer 可视化教程(入门首选)
- Sebastian Raschka: 实用 ML 教程 + 最新论文解读
- The Batch (Andrew Ng): 每周 AI 新闻 + 技术要点
- Interconnects (Nathan Lambert): RLHF/对齐领域深度分析
- Simon Willison’s Blog: LLM 工程实践 + 工具使用技巧
13.3 实践建议
🎯 学习 Agent 系统最有效的方式是阅读 Claude Code 源码 + 阅读本系列文档。理解了 30 个工具如何调度、权限如何检查、Swarm 如何协调,你就掌握了生产级 Agent 系统的设计精髓。
📌 补充建议:理论学习与实践交替进行效果最好。建议 70% 时间读论文 + 源码分析,30% 时间动手实现。可以从最小可行 Agent(50 行代码的 ReAct loop)开始,逐步添加 Tool System → Permission → Multi-Agent,每一层都先理解原理再动手。
🔗 相关文档:本系列 02-Agentic查询循环、03-工具系统、11-多Agent系统 是实践 Agent 开发的三个核心参考。
涉及源文件
services/api/claude.tsservices/api/client.tsservices/api/withRetry.ts


