【模式识别和机器学习】初窥AI圣经

《Pattern Recognition and Machine Learning》（PRML）是 Christopher M. Bishop 于 2006 年出版的经典著作，被学术界和工业界公认为”机器学习圣经”之一。不同于一些偏重工程应用的教材，PRML 从概率论和贝叶斯统计的视角系统地构建了机器学习的理论框架。本文将提供一份完整的学习指南和概念地图。

一、为什么 PRML 至今仍是必读经典？

1.1 PRML 的独特定位

维度	PRML	《统计学习方法》(李航)	《Deep Learning》(Goodfellow)
哲学基础	贝叶斯概率论	频率学派	概率 + 工程直觉
核心方法	概率图模型	统计学习理论	深度神经网络
数学深度	高（需要多元微积分+线性代数+概率论）	中	中高
涵盖范围	经典 ML 全覆盖	以分类/回归为主	以 DL 为主
写作年代	2006（但核心内容不老）	2012/2019	2016
与现代 DL 的关系	提供 DL 的概率论基础	几乎无关	直接相关

PRML 的价值不在于教你跑一个 XGBoost 或训练一个 CNN，而在于它为理解模型为什么有效提供了统一的概率框架。当你理解了 EM 算法、变分推断、MCMC，你会发现深度生成模型（VAE、扩散模型）、贝叶斯神经网络、概率编程等前沿话题都建立在这些基础之上。

1.2 PRML 的核心思想

PRML 全书围绕一个中心问题展开：如何从数据中学习概率分布？

如果我们可以对数据分布 $p(x, t)$ 建模，那么分类就是 $p(t \mid x)$，回归就是 $\mathbb{E}[t \mid x]$
概率建模意味着我们需要处理不确定性——参数的不确定性、模型选择的不确定性、预测的不确定性
贝叶斯框架通过先验 + 似然 → 后验提供了处理不确定性的统一方法

二、章节导航与学习重点

2.1 全书 14 章概览

章节	标题	页数	难度	重要性	核心内容
1	引言	~70	低	★★★	曲线拟合、概率论基础、决策论、信息论
2	概率分布	~70	中	★★★	二项、多项、高斯、Student-t、指数族、无信息先验
3	线性回归模型	~70	中	★★★	基函数、偏差-方差分解、贝叶斯线性回归、证据近似
4	线性分类模型	~70	中	★★☆	判别函数、概率生成模型、概率判别模型、拉普拉斯近似
5	神经网络	~40	中	★★☆	MLP、BP 的贝叶斯视角、正则化
6	核方法	~50	中高	★★☆	对偶表示、构造核、RBF 网络、高斯过程
7	稀疏核机	~40	中高	★☆☆	SVM、RVM
8	概率图模型	~70	高	★★★	贝叶斯网络、马尔可夫随机场、d-分离、推断
9	混合模型与 EM	~50	高	★★★	K-means、GMM、EM 算法通用形式
10	近似推断	~70	高	★★★	变分推断、局部变分法、期望传播（EP）
11	采样方法	~50	高	★★★	MCMC、Metropolis-Hastings、Gibbs、切片采样、HMC
12	连续潜变量	~50	高	★★☆	PCA（概率视角）、PPCA、因子分析、ICA
13	序列数据	~50	高	★★☆	HMM、线性动态系统
14	组合模型	~50	高	★☆☆	组合、Boosting、决策树、条件混合模型

2.2 章节关系图

第1章（基础）
  ↓
第2章（概率分布工具箱）
  ↓
第3章（线性回归） ←→ 第4章（线性分类）
  ↓                       ↓
第5章（NN）   ←→  第6-7章（核方法/SVM/RVM）
  ↓
第8章（概率图模型）【全书核心/分水岭】
  ↓
第9章（混合模型+EM）
  ↓
第10章（变分推断） ←→ 第11章（MCMC采样）
  ↓                       ↓
第12章（潜变量模型）  第13章（序列模型）
  ↓
第14章（组合模型）

建议的阅读路线：

快速路线（1-2 个月）：第 1 → 2 → 3 → 4 → 8 → 9 → 10
系统路线（3-4 个月）：按章节顺序，重点在第 2, 3, 8, 9, 10, 11
研究路线（6 个月+）：全书精读 + 每章习题

三、数学基础与前置知识

3.1 必备基础知识

数学领域	要求	关键概念	补充材料
线性代数	扎实	特征值/特征向量、矩阵分解（Cholesky, SVD）、正定矩阵、迹和行列式	Strang《Linear Algebra》
多元微积分	扎实	梯度、Hessian、Jacobian、拉格朗日乘子、方向导数	Stewart《Calculus》
概率论	扎实	条件概率、贝叶斯定理、期望/方差/协方差、变换方法、测度论基础	MIT 6.041 课程
信息论	基础	熵、KL 散度、互信息	PRML 第 1.6 节足够
优化	基础	凸优化、梯度下降、牛顿法、拉格朗日对偶	PRML 附录 E 足够
统计	基础	MLE、MAP、置信区间 vs 可信区间	PRML 第 2 章覆盖

3.2 概率论速查：PRML 中最核心的分布

高斯分布（全书最高频的分布）：

单变量：$\mathcal{N}(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

多变量：$\mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)$

共轭先验：如果后验分布与先验分布属于同一分布族，则称该先验为似然函数的共轭先验。例如：

二项似然 + Beta 先验 → Beta 后验
高斯似然（已知方差）+ 高斯先验 → 高斯后验
高斯似然（未知均值）+ Gaussian-Gamma 先验 → Gaussian-Gamma 后验

指数族分布：Bishop 反复强调指数族的重要性——大多数常见的概率分布都属于指数族，而指数族有一些优雅的性质（充分统计量、共轭先验存在、最大熵性质）。

四、各章核心概念详解

4.1 第 1 章：引言——曲线拟合背后的哲学

以多项式曲线拟合为例，引入：

过拟合与正则化：M=9 的多项式完美通过所有训练点但剧烈震荡 → 需要控制模型复杂度
训练集大小 vs 模型复杂度：数据越多，可以用越复杂的模型
MLE vs MAP vs Bayesian：最大似然估计（仅用似然）、最大后验估计（先验 × 似然）、全贝叶斯（边际化所有参数）

$$\text{MLE: } \mathbf{w}_{ML} = \arg\max_{\mathbf{w}} p(\mathcal{D} \mid \mathbf{w})$$

$$\text{MAP: } \mathbf{w}_{MAP} = \arg\max_{\mathbf{w}} p(\mathbf{w} \mid \mathcal{D}) = \arg\max_{\mathbf{w}} p(\mathcal{D} \mid \mathbf{w})p(\mathbf{w})$$

$$\text{Bayesian: } p(t \mid \mathbf{x}, \mathcal{D}) = \int p(t \mid \mathbf{x}, \mathbf{w}) p(\mathbf{w} \mid \mathcal{D}) d\mathbf{w}$$

4.2 第 3 章：线性回归的三种视角

Bishop 用同一组线性模型展示了三种不同的训练哲学：

频率学派（MLE）：$\min_{\mathbf{w}} \sum_i (t_i - \mathbf{w}^T \phi(\mathbf{x}_i))^2$ + 可选 L2 正则

MAP 估计（频率+先验）：$\min_{\mathbf{w}} \sum_i (t_i - \mathbf{w}^T \phi(\mathbf{x}_i))^2 + \lambda |\mathbf{w}|^2$，等价于高斯先验下的 MAP

全贝叶斯（后验分布）：$p(\mathbf{w} \mid \mathcal{D}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N)$，然后对 $\mathbf{w}$ 积分得到预测分布。预测分布不仅有预测均值，还有预测方差——后者量化了预测的不确定性（在 MLE 和 MAP 中都是缺失的）。

证据近似（Evidence Approximation / Empirical Bayes）：对超参数 $\alpha$ 和 $\beta$（先验精度和噪声精度）最大化证据（marginal likelihood / model evidence）$p(\mathcal{D} \mid \alpha, \beta)$。这是一种介于全贝叶斯和 MAP 之间的折中方案。

4.3 第 4 章：分类的三种进路

进路	方法	特点
判别函数	直接找决策边界（Fisher 线性判别、感知机）	不输出概率，最简单
概率生成模型	对每类的 $p(\mathbf{x} \mid C_k)$ 建模，用贝叶斯求 $p(C_k \mid \mathbf{x})$	可生成新样本，但建模复杂
概率判别模型	直接建模 $p(C_k \mid \mathbf{x})$（逻辑回归）	参数更少，专注分类任务

拉普拉斯近似（Laplace Approximation）：在 MAP 估计处用高斯分布近似后验——在高斯分布的均值处做二阶泰勒展开。这是连接 MAP 估计和贝叶斯推断的桥梁方法，也是 PRML 中反复出现的工具。

4.4 第 5 章：神经网络（经典 MLP 视角）

PRML 第 5 章对神经网络的讨论是基于 2006 年之前的知识，但以下内容仍然具有深刻价值：

BP 算法的链式法则推导（核心，至今未变）
Hessian 矩阵的计算和用途：快速优化、拉普拉斯近似、剪枝
正则化：weight decay、early stopping、invariance（通过数据增强）
混合密度网络（MDN）：输出不是单一值，而是一个混合分布——这在不确定性量化中越来越重要

4.5 第 8 章：概率图模型

全书最重要的章节之一。概率图模型是将概率分布结构化为图的方法，使得复杂的联合概率分解为条件概率的乘积：

有向图（贝叶斯网络）：

$$p(\mathbf{x}) = \prod_{k=1}^{K} p(x_k \mid \text{pa}_k)$$

无向图（马尔可夫随机场）：

$$p(\mathbf{x}) = \frac{1}{Z} \prod_{C} \psi_C(\mathbf{x}_C)$$

d-分离：判断变量之间是否条件独立的关键判据。这对于理解推断算法的正确性和设计新的图模型至关重要。

4.6 第 9 章：EM 算法

EM（Expectation-Maximization）是 Bishop 最引以为豪的通用算法之一。对于含有潜变量 $\mathbf{Z}$ 的模型：

$$ \ln p(\mathbf{X} \mid \boldsymbol{\theta}) = \mathcal{L}(q, \boldsymbol{\theta}) + \text{KL}(q \parallel p) $$

其中 $\mathcal{L}(q, \boldsymbol{\theta})$ 是证据下界（ELBO, Evidence Lower Bound）：

$$\mathcal{L}(q, \boldsymbol{\theta}) = \int q(\mathbf{Z}) \ln\left(\frac{p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})}{q(\mathbf{Z})}\right) d\mathbf{Z}$$

EM 算法的两步迭代：

E 步：固定 $\boldsymbol{\theta}^{\text{old}}$，最大化 $\mathcal{L}$ 关于 $q$，得 $q(\mathbf{Z}) = p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}^{\text{old}})$
M 步：固定 $q$，最大化 $\mathcal{L}$ 关于 $\boldsymbol{\theta}$

注意：EM 的 E 步要求后验 $p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta})$ 可以精确计算。当这不可行时（大多数有趣的情况），就需要第 10 章的变分 EM。

4.7 第 10 章：变分推断

当精确推断不可行时，变分推断提供了一个确定性近似方案。核心思想：用一族参数化的分布 $q(\mathbf{Z} \mid \boldsymbol{\omega})$ 来近似真实后验 $p(\mathbf{Z} \mid \mathbf{X})$，通过最大化 ELBO 来找到最优的 $\boldsymbol{\omega}$。

均值场近似（Mean-Field Approximation）：假设各变量的后验相互独立：

$$q(\mathbf{Z}) = \prod_{i=1}^{M} q_i(\mathbf{Z}_i)$$

在这个假设下，每个 $q_i$ 的最佳形式为：

$$\ln q_i^*(\mathbf{Z}_i) = \mathbb{E}_{j \neq i}[\ln p(\mathbf{X}, \mathbf{Z})] + \text{const}$$

这与坐标上升（Coordinate Ascent）的迭代求解完美匹配。

变分推断 vs MCMC：

维度	变分推断	MCMC
性质	确定性近似	随机精确（无限采样极限下精确）
计算	通常更快	通常更慢
收敛判定	明确（ELBO 收敛）	模糊（需要收敛诊断）
适用场景	大规模数据、实时推断	小规模数据的精确推断

4.8 第 11 章：采样方法（MCMC）

当变分推断的假设过于严苛时，MCMC 提供了另一个选择——通过构造一条以目标分布为平稳分布的马尔可夫链来生成样本。

Metropolis-Hastings 算法：

1. 从提议分布 q(z* | z^(τ)) 中采样候选点 z*
2. 以概率 A = min(1, p(z*)q(z^(τ) | z*) / (p(z^(τ))q(z* | z^(τ)))) 接受
3. 如果接受：z^(τ+1) = z*，否则：z^(τ+1) = z^(τ)

Gibbs 采样：Metropolis-Hastings 的特例，提议分布为条件分布 $q(z_k^* \mid z_{-k}) = p(z_k^* \mid z_{-k})$，接受概率恒为 1。

HMC（Hamiltonian Monte Carlo / Hybrid Monte Carlo）：利用目标分布的梯度信息，在相空间中进行哈密顿动力学模拟，能更有效地探索高维分布。HMC 是现代概率编程语言（Stan, PyMC, NumPyro）的默认采样算法之一。

五、PRML 与现代深度学习的连接

5.1 直接联系

PRML 概念	现代 DL 对应
反向传播（5.3 节）	所有 DL 框架的基础（autograd 是其自动化实现）
贝叶斯线性回归	贝叶斯神经网络、Laplace Redux
EM 算法	VAE 的训练（ELBO 最大化 = EM 的连续潜变量推广）
变分推断（第 10 章）	VAE, VQ-VAE, Diffusion Models 的变分下界
高斯过程（6.4 节）	Deep GP, Neural Tangent Kernel (NTK)
混合密度网络（5.6 节）	现代不确定性估计的核心组件
Hessian 对角近似（5.4 节）	二阶优化器（KFAC, Shampoo, AdaHessian）
证据近似（3.5 节）	Type-II MLE, Deep Kernel Learning

5.2 间接但深层的联系

概率视角的 PCA（12.2 节）：将 PCA 解释为线性高斯模型下的 MLE → 推广到非线性隐变量模型 → 变分自编码器（VAE）
指数族 + 共轭先验：理解贝叶斯深度学习的理论基础
信息论（1.6 节）：KL 散度 → 变分推断的损失函数；互信息 → InfoNCE、对比学习
贝叶斯模型平均 vs 模型选择：理解 Deep Ensemble 为什么比单模型好

六、学习建议与资源

6.1 三阶段学习法

阶段 1（基础了解，2-4 周）：

通读第 1 章，理解概率建模的基本思想
选择性阅读第 2 章（根据数学基础）
阅读第 3 章（线性回归的三种范式，全书核心思想的集中体现）

阶段 2（核心掌握，1-2 个月）：

第 8 章（图模型）→ 第 9 章（EM）→ 第 10 章（变分推断）→ 第 11 章（MCMC）
这四章构成了 PRML 的”计算核心”，也是最能区别于一般 ML 教材的内容

阶段 3（深入研究，2-4 个月）：

精读剩余章节（第 5, 6, 7, 12, 13, 14 章）
每章选做至少 5 道习题

6.2 配套资源

资源类型	推荐
官方习题解答	Bishop 官网提供了部分习题解（`https://www.microsoft.com/en-us/research/people/cmbishop/`）
视频课程	Tübingen 大学 Philipp Hennig 的”Probabilistic Machine Learning”（现代视角）
代码实现	`ctgk/PRML`（GitHub，Python 实现的 PRML 算法）
配套书籍（进阶）	Murphy《Probabilistic Machine Learning》系列（2022/2023，全面现代化）、Bishop 新书《Deep Learning: Foundations and Concepts》（2023）
数学补充	若觉得数学吃力，先看附录 B（概率论）、附录 C（矩阵性质）、附录 E（拉格朗日乘子）

6.3 PRML 中容易卡住的地方

2.3 节（高斯分布）：多变量高斯的条件分布和边缘分布的矩阵推导较长，可先接受结论跳过证明
4.4 节（拉普拉斯近似）：初次阅读可能不理解其重要性，在变分推断章节（第 10 章）再看会清晰很多
10.1-10.4 节（变分推断）：均值场推断的”坐标上升”推导是全书的数学高难点，建议配合视频讲解
11.5 节（HMC）：如果缺乏物理背景，可以暂时跳过哈密顿动力学的物理解释，关注算法的伪代码即可

七、关键章节深度扩展

7.1 第 2 章：概率分布——构建完整的分布工具箱

第 2 章是全书数学最密集的章节之一，也是后续所有推导的基础。以下是需要重点关注的核心分布及其关系：

指数族（Exponential Family）的统一视角：

几乎所有常用的概率分布都可以写成指数族形式：

$$ p(\mathbf{x} \mid \boldsymbol{\eta}) = h(\mathbf{x}) g(\boldsymbol{\eta}) \exp(\boldsymbol{\eta}^T \mathbf{u}(\mathbf{x})) $$

其中 $\boldsymbol{\eta}$ 是自然参数（natural parameter），$\mathbf{u}(\mathbf{x})$ 是充分统计量（sufficient statistic）。

为什么指数族如此重要？因为：

充分统计量存在：$\mathbf{u}(\mathbf{x})$ 包含了 $\mathbf{x}$ 关于参数的全部信息
共轭先验存在：任何指数族分布都有共轭先验，也属于指数族
最大熵性质：在给定约束（充分统计量的期望固定）下，指数族是熵最大的分布——即在给定信息约束下，它是最”不武断”的选择
梯度与充分统计量的关系：$\nabla_{\boldsymbol{\eta}} \ln g(\boldsymbol{\eta}) = -\mathbb{E}[\mathbf{u}(\mathbf{x})]$

Beta 分布与顺序学习：

Beta 分布的重要性远超表象。它是伯努利/二项似然的共轭先验：

$$\text{Beta}(\mu \mid a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1}$$

顺序贝叶斯更新：观察到一个新数据点（正面）后：

$$p(\mu \mid \mathcal{D}, \text{正面}) \propto \text{Beta}(\mu \mid a, b) \times \mu = \text{Beta}(\mu \mid a+1, b)$$

即后验先验的 a 参数加 1。这种”加计数”的直观更新方式揭示了贝叶斯学习的美妙之处——先验的 a 和 b 可以理解为”假想的先前观察计数”。

Wishart 分布与高斯推断：

对于多变量高斯分布，均值的共轭先验仍是高斯，但协方差矩阵的共轭先验是 Wishart 分布。联合推断时使用 Gaussian-Wishart（或 Gaussian-Gamma）先验。这一套分布族构成了贝叶斯线性模型、高斯混合模型、因子分析等模型推断的基础。

7.2 第 8 章：概率图模型的三种基本结构

理解以下三种基本图结构的条件独立性关系是读懂图模型的关键：

Head-to-Tail（链式）：$A \rightarrow B \rightarrow C$

无条件时：$A$ 与 $C$ 相关（通过 B）
条件于 B：$A \perp!!!\perp C \mid B$（B 被观察后，A 和 C 条件独立）
直观理解：如果 B 已知，A 不能通过 B 传递额外信息给 C

Tail-to-Tail（分叉）：$A \leftarrow B \rightarrow C$

无条件时：$A$ 与 $C$ 相关（共享原因 B）
条件于 B：$A \perp!!!\perp C \mid B$
直观理解：解释消除（explaining away）的对称结构——知道共同原因后，其结果之间独立
这就是”朴素贝叶斯”的图结构：给定类别，特征之间条件独立

Head-to-Head（汇合/V-Structure）：$A \rightarrow B \leftarrow C$

无条件时：$A$ 与 $C$ 独立（无信息通道）
条件于 B：$A$ 与 $C$ 相关！
直观理解：解释消除（explaining away）——如果观察到结果 B 发生了，那么 A 和 C 作为两个可能的”原因”会互相竞争。知道 A 很大程度上导致了 B，就会降低 C 导致 B 的可信度。
这是三个结构中唯一一个”条件后变相关”的反直觉情况

d-分离（Directed Separation）的形式化定义：

一个节点集合 $\mathcal{C}$ d-分离了节点 A 和 B，当且仅当连接 A 和 B 的所有路径都被 $\mathcal{C}$ “阻塞”：

如果路径包含 Head-to-Tail 或 Tail-to-Tail 节点，且该节点在 $\mathcal{C}$ 中，路径被阻塞
如果路径包含 Head-to-Head 节点，且该节点及所有后代都不在 $\mathcal{C}$ 中，路径被阻塞

7.3 第 12 章：PCA 的概率视角

标准 PCA 可以被重新解释为概率模型——概率 PCA（Probabilistic PCA, PPCA）：

传统 PCA：线性投影，最大化投影后方差（或最小化重构误差）。

概率 PCA：假设数据生成过程为：

$$\mathbf{x} = \mathbf{W}\mathbf{z} + \boldsymbol{\mu} + \boldsymbol{\epsilon}$$

其中潜变量 $\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})$，噪声 $\boldsymbol{\epsilon} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})$。

通过最大似然估计 $\mathbf{W}$，得到的最大似然解与标准 PCA 的主成分方向一致（差一个旋转矩阵）。但 PPCA 的优势在于：

概率框架：可以计算数据点的对数似然，用于模型选择（选择主成分数量）
处理缺失值：通过 EM 算法自然地处理缺失数据（旧 PCA 需要专门的方法如迭代 PCA）
推广到非线性：从 PPCA 出发，将线性映射 $\mathbf{W}\mathbf{z}$ 替换为神经网络 $f_\theta(\mathbf{z})$，我们就得到了变分自编码器（VAE）的基础结构
贝叶斯 PCA：在 $\mathbf{W}$ 上加先验（如 ARD 先验），可以自动确定有效的主成分数量

八、PRML 的数学难点突破指南

8.1 不会推导矩阵微积分怎么办？

PRML 中有大量矩阵求导。核心公式速查：

形式	导数	出现章节
$\frac{\partial}{\partial \mathbf{x}} \mathbf{a}^T \mathbf{x}$	$\mathbf{a}$	第 4 章
$\frac{\partial}{\partial \mathbf{x}} \mathbf{x}^T \mathbf{A} \mathbf{x}$	$(\mathbf{A} + \mathbf{A}^T)\mathbf{x}$	第 3 章
$\frac{\partial}{\partial \mathbf{A}} \ln	\mathbf{A}	$
$\frac{\partial}{\partial \mathbf{A}} \mathbf{x}^T \mathbf{A}^{-1} \mathbf{y}$	$-\mathbf{A}^{-T} \mathbf{x} \mathbf{y}^T \mathbf{A}^{-T}$	各种

建议：PRML 附录 C（矩阵性质）+ Petersen & Pedersen 的《The Matrix Cookbook》作为查表工具。

8.2 理解 KL 散度不对称性的实际意义

KL 散度 $\text{KL}(q \parallel p) = \int q(x) \ln\frac{q(x)}{p(x)} dx$ 是不对称的。

$\text{KL}(q \parallel p)$（前向 KL / 排他性 KL）：在 $p$ 大的地方 $q$ 也必须大，否则惩罚很重 → 变分推断使用此方向 → 导致 $q$ 趋于”模式搜索”（mode-seeking），倾向于集中在 $p$ 的一个峰值上
$\text{KL}(p \parallel q)$（后向 KL / 包容性 KL）：在 $p$ 有概率的地方 $q$ 也必须有 → 期望传播（EP）使用此方向 → 导致 $q$ 趋于”模式覆盖”（mode-covering），倾向于覆盖 $p$ 的所有区域

直观理解：$q$ 是近似分布，$p$ 是真实分布。

前向 KL 关心的是”万一 $p$ 说某件事可能发生，而 $q$ 说不可能”→ 惩罚非常大 → $q$ 会保守地集中在 $p$ 的高概率区域
后向 KL 关心的是”万一 $q$ 说某件事可能发生，但 $p$ 说不可能”→ 惩罚非常大 → $q$ 会试图覆盖 $p$ 的所有概率区域

九、核心习题精选

以下是值得亲手推导的习题（按难度排序）：

入门：

1.5（证明最小化期望损失等价于选择最大后验类别）
2.15（证明高斯分布的熵公式）
3.6（推导线性基函数模型的 MLE 解）

中等：

3.16（推导贝叶斯线性回归的证据函数）
4.15（推导 probit 回归的 EM 算法）
8.14（证明 d-分离的某些性质）
9.11（推导 GMM 的 EM 更新公式）

困难：

10.16（推导变分混合模型的变分下界）
11.17（实现 HMC 并对某分布采样）
13.8（推导 HMM 的前向后向算法）

八、为什么 2025 年还要读 PRML？

**概率思维是 ML 的”第一性原理”**：理解了贝叶斯推断，就理解了几乎所有机器学习模型的底层逻辑
变分推断和 MCMC 正变得比以往任何时候都更重要：生成式 AI 时代的核心数学工具
从 PRML 到 Bishop 2023 新书的连续统：PRML 提供了理论基础，新书《Deep Learning: Foundations and Concepts》提供了现代视角
面试和研究都绕不开：无论是 PhD 申请面试还是工业界 ML 研究岗，”PRML 读到哪了”仍然是一个有分量的问题
避免”调参侠”陷阱：只有坚实的理论功底，才能从现象级工程师变成能设计和改进算法的工程师

九、面试高频问答

Q1: PRML 的核心理念是什么？它与其他 ML 教材最大的区别在哪里？

PRML 的核心理念是一切问题都可以从概率建模的角度来理解。其他教材可能从优化（loss minimization）的角度组织内容，PRML 则始终从概率分布的角度出发——模型的输出是一个概率分布（预测分布），而不是一个点估计。这种视角在处理不确定性、模型比较、先验知识融入等方面有天然优势。特别是整本书用贝叶斯框架串联所有算法，让你看到线性回归、SVM、神经网络、EM、变分推断这些看似无关的方法其实共享同一个概率基础。

Q2: 请用 PRML 的框架解释 EM 算法和变分推断的关系。

EM 和变分推断都是用来处理”有潜变量时如何最大化对数似然”的问题，区别在于 E 步是否能精确计算后验。两者的统一公式是 ELBO（证据下界）：

$$\ln p(\mathbf{X} \mid \boldsymbol{\theta}) = \underbrace{\mathbb{E}_q[\ln p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})] + H[q]}_{\text{ELBO } \mathcal{L}(q, \boldsymbol{\theta})} + \underbrace{\text{KL}(q \parallel p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}))}_{\geq 0}$$

EM 算法的 E 步：令 $q(\mathbf{Z}) = p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}^{\text{old}})$，使得 KL 项变为 0，ELBO 等于对数似然（紧密性）。但这要求后验可以精确计算。

变分推断：当后验不可精确计算时，我们约束 $q(\mathbf{Z})$ 在一个更简单的函数族（如均值场：$q(\mathbf{Z}) = \prod_i q_i(Z_i)$）中，然后最大化 ELBO——即找”约束族内最接近真实后验的近似”。此时 KL 项 > 0，ELBO 是 $\ln p$ 的下界。

Q3: 贝叶斯线性回归和 Ridge 回归看起来形式很像，它们的本质区别是什么？

Ridge 回归（频率学派）：$\min_{\mathbf{w}} |\mathbf{y} - \mathbf{X}\mathbf{w}|^2 + \lambda |\mathbf{w}|^2$，得到一个点估计 $\hat{\mathbf{w}}$。

贝叶斯线性回归（贝叶斯学派）：为 $\mathbf{w}$ 赋予高斯先验 $p(\mathbf{w}) = \mathcal{N}(\mathbf{w} \mid 0, \alpha^{-1}\mathbf{I})$，计算后验 $p(\mathbf{w} \mid \mathcal{D}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N)$。后验均值 $\mathbf{m}_N$ 的公式等价于 Ridge 的解（当 $\lambda = \alpha / \beta$ 时），但区别在于：

贝叶斯回归给出的是整个后验分布，而不仅仅是均值。后验协方差 $\mathbf{S}_N$ 量化了参数的不确定性。
贝叶斯回归的预测也是分布（预测分布），包含了噪声不确定性和参数不确定性：$\sigma_N^2(\mathbf{x}) = \beta^{-1} + \phi(\mathbf{x})^T \mathbf{S}_N \phi(\mathbf{x})$
贝叶斯框架中，超参数 $\alpha$ 和 $\beta$ 可以通过最大化证据（marginal likelihood）自动选择，而不需要交叉验证

Q4: PRML 中的”证据近似（Evidence Approximation）”是什么？它与交叉验证选超参数有什么不同？

证据近似（也称 Empirical Bayes 或 Type-II MLE）是通过最大化边缘似然（marginal likelihood / model evidence）$p(\mathcal{D} \mid \alpha, \beta)$ 来选择超参数。与交叉验证相比：

证据近似是纯训练集操作（不需要验证集），最大化的是训练数据的边际概率——隐含了 Occam’s Razor 效应（贝叶斯证据自动惩罚过于复杂的模型）
交叉验证需要划分验证集，是一种频率学派的模型选择方法

在实践中，证据近似在贝叶斯线性回归等简单模型中效果很好（甚至能得到解析解），但在复杂模型（如深度网络）中难以直接应用。

Q5: MCMC 和变分推断在什么场景下应该选哪个？

选择依据：

精度要求高 + 计算预算充足：MCMC。MCMC 在极限下是精确的（马尔可夫链收敛到真实后验），适合学术研究、模型开发阶段。
速度要求高 + 可接受近似：变分推断。变分推断通常快 1-3 个数量级，适合大规模数据、在线学习、生产环境。
后验是单峰且近似高斯：两者效果相近，优先选变分推断（快）。
后验是多峰的复杂分布：MCMC 更可靠。均值场变分推断在多峰分布上可能完全遗漏某个模式（mode collapse）。
需要估计模型的证据（marginal likelihood）用于模型比较：变分推断（ELBO 是 $\ln p(\mathcal{D})$ 的下界，可直接用于模型比较）。MCMC 估计 marginal likelihood 通常更麻烦。