《Pattern Recognition and Machine Learning》(PRML)是 Christopher M. Bishop 于 2006 年出版的经典著作,被学术界和工业界公认为”机器学习圣经”之一。不同于一些偏重工程应用的教材,PRML 从概率论和贝叶斯统计的视角系统地构建了机器学习的理论框架。本文将提供一份完整的学习指南和概念地图。
一、为什么 PRML 至今仍是必读经典?
1.1 PRML 的独特定位
| 维度 | PRML | 《统计学习方法》(李航) | 《Deep Learning》(Goodfellow) |
|---|---|---|---|
| 哲学基础 | 贝叶斯概率论 | 频率学派 | 概率 + 工程直觉 |
| 核心方法 | 概率图模型 | 统计学习理论 | 深度神经网络 |
| 数学深度 | 高(需要多元微积分+线性代数+概率论) | 中 | 中高 |
| 涵盖范围 | 经典 ML 全覆盖 | 以分类/回归为主 | 以 DL 为主 |
| 写作年代 | 2006(但核心内容不老) | 2012/2019 | 2016 |
| 与现代 DL 的关系 | 提供 DL 的概率论基础 | 几乎无关 | 直接相关 |
PRML 的价值不在于教你跑一个 XGBoost 或训练一个 CNN,而在于它为理解模型为什么有效提供了统一的概率框架。当你理解了 EM 算法、变分推断、MCMC,你会发现深度生成模型(VAE、扩散模型)、贝叶斯神经网络、概率编程等前沿话题都建立在这些基础之上。
1.2 PRML 的核心思想
PRML 全书围绕一个中心问题展开:如何从数据中学习概率分布?
- 如果我们可以对数据分布 $p(x, t)$ 建模,那么分类就是 $p(t \mid x)$,回归就是 $\mathbb{E}[t \mid x]$
- 概率建模意味着我们需要处理不确定性——参数的不确定性、模型选择的不确定性、预测的不确定性
- 贝叶斯框架通过先验 + 似然 → 后验提供了处理不确定性的统一方法
二、章节导航与学习重点
2.1 全书 14 章概览
| 章节 | 标题 | 页数 | 难度 | 重要性 | 核心内容 |
|---|---|---|---|---|---|
| 1 | 引言 | ~70 | 低 | ★★★ | 曲线拟合、概率论基础、决策论、信息论 |
| 2 | 概率分布 | ~70 | 中 | ★★★ | 二项、多项、高斯、Student-t、指数族、无信息先验 |
| 3 | 线性回归模型 | ~70 | 中 | ★★★ | 基函数、偏差-方差分解、贝叶斯线性回归、证据近似 |
| 4 | 线性分类模型 | ~70 | 中 | ★★☆ | 判别函数、概率生成模型、概率判别模型、拉普拉斯近似 |
| 5 | 神经网络 | ~40 | 中 | ★★☆ | MLP、BP 的贝叶斯视角、正则化 |
| 6 | 核方法 | ~50 | 中高 | ★★☆ | 对偶表示、构造核、RBF 网络、高斯过程 |
| 7 | 稀疏核机 | ~40 | 中高 | ★☆☆ | SVM、RVM |
| 8 | 概率图模型 | ~70 | 高 | ★★★ | 贝叶斯网络、马尔可夫随机场、d-分离、推断 |
| 9 | 混合模型与 EM | ~50 | 高 | ★★★ | K-means、GMM、EM 算法通用形式 |
| 10 | 近似推断 | ~70 | 高 | ★★★ | 变分推断、局部变分法、期望传播(EP) |
| 11 | 采样方法 | ~50 | 高 | ★★★ | MCMC、Metropolis-Hastings、Gibbs、切片采样、HMC |
| 12 | 连续潜变量 | ~50 | 高 | ★★☆ | PCA(概率视角)、PPCA、因子分析、ICA |
| 13 | 序列数据 | ~50 | 高 | ★★☆ | HMM、线性动态系统 |
| 14 | 组合模型 | ~50 | 高 | ★☆☆ | 组合、Boosting、决策树、条件混合模型 |
2.2 章节关系图
第1章(基础) |
建议的阅读路线:
- 快速路线(1-2 个月):第 1 → 2 → 3 → 4 → 8 → 9 → 10
- 系统路线(3-4 个月):按章节顺序,重点在第 2, 3, 8, 9, 10, 11
- 研究路线(6 个月+):全书精读 + 每章习题
三、数学基础与前置知识
3.1 必备基础知识
| 数学领域 | 要求 | 关键概念 | 补充材料 |
|---|---|---|---|
| 线性代数 | 扎实 | 特征值/特征向量、矩阵分解(Cholesky, SVD)、正定矩阵、迹和行列式 | Strang《Linear Algebra》 |
| 多元微积分 | 扎实 | 梯度、Hessian、Jacobian、拉格朗日乘子、方向导数 | Stewart《Calculus》 |
| 概率论 | 扎实 | 条件概率、贝叶斯定理、期望/方差/协方差、变换方法、测度论基础 | MIT 6.041 课程 |
| 信息论 | 基础 | 熵、KL 散度、互信息 | PRML 第 1.6 节足够 |
| 优化 | 基础 | 凸优化、梯度下降、牛顿法、拉格朗日对偶 | PRML 附录 E 足够 |
| 统计 | 基础 | MLE、MAP、置信区间 vs 可信区间 | PRML 第 2 章覆盖 |
3.2 概率论速查:PRML 中最核心的分布
高斯分布(全书最高频的分布):
单变量:$\mathcal{N}(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
多变量:$\mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)$
共轭先验:如果后验分布与先验分布属于同一分布族,则称该先验为似然函数的共轭先验。例如:
- 二项似然 + Beta 先验 → Beta 后验
- 高斯似然(已知方差)+ 高斯先验 → 高斯后验
- 高斯似然(未知均值)+ Gaussian-Gamma 先验 → Gaussian-Gamma 后验
指数族分布:Bishop 反复强调指数族的重要性——大多数常见的概率分布都属于指数族,而指数族有一些优雅的性质(充分统计量、共轭先验存在、最大熵性质)。
四、各章核心概念详解
4.1 第 1 章:引言——曲线拟合背后的哲学
以多项式曲线拟合为例,引入:
- 过拟合与正则化:M=9 的多项式完美通过所有训练点但剧烈震荡 → 需要控制模型复杂度
- 训练集大小 vs 模型复杂度:数据越多,可以用越复杂的模型
- MLE vs MAP vs Bayesian:最大似然估计(仅用似然)、最大后验估计(先验 × 似然)、全贝叶斯(边际化所有参数)
$$\text{MLE: } \mathbf{w}_{ML} = \arg\max_{\mathbf{w}} p(\mathcal{D} \mid \mathbf{w})$$
$$\text{MAP: } \mathbf{w}_{MAP} = \arg\max_{\mathbf{w}} p(\mathbf{w} \mid \mathcal{D}) = \arg\max_{\mathbf{w}} p(\mathcal{D} \mid \mathbf{w})p(\mathbf{w})$$
$$\text{Bayesian: } p(t \mid \mathbf{x}, \mathcal{D}) = \int p(t \mid \mathbf{x}, \mathbf{w}) p(\mathbf{w} \mid \mathcal{D}) d\mathbf{w}$$
4.2 第 3 章:线性回归的三种视角
Bishop 用同一组线性模型展示了三种不同的训练哲学:
频率学派(MLE):$\min_{\mathbf{w}} \sum_i (t_i - \mathbf{w}^T \phi(\mathbf{x}_i))^2$ + 可选 L2 正则
MAP 估计(频率+先验):$\min_{\mathbf{w}} \sum_i (t_i - \mathbf{w}^T \phi(\mathbf{x}_i))^2 + \lambda |\mathbf{w}|^2$,等价于高斯先验下的 MAP
全贝叶斯(后验分布):$p(\mathbf{w} \mid \mathcal{D}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N)$,然后对 $\mathbf{w}$ 积分得到预测分布。预测分布不仅有预测均值,还有预测方差——后者量化了预测的不确定性(在 MLE 和 MAP 中都是缺失的)。
证据近似(Evidence Approximation / Empirical Bayes):对超参数 $\alpha$ 和 $\beta$(先验精度和噪声精度)最大化证据(marginal likelihood / model evidence)$p(\mathcal{D} \mid \alpha, \beta)$。这是一种介于全贝叶斯和 MAP 之间的折中方案。
4.3 第 4 章:分类的三种进路
| 进路 | 方法 | 特点 |
|---|---|---|
| 判别函数 | 直接找决策边界(Fisher 线性判别、感知机) | 不输出概率,最简单 |
| 概率生成模型 | 对每类的 $p(\mathbf{x} \mid C_k)$ 建模,用贝叶斯求 $p(C_k \mid \mathbf{x})$ | 可生成新样本,但建模复杂 |
| 概率判别模型 | 直接建模 $p(C_k \mid \mathbf{x})$(逻辑回归) | 参数更少,专注分类任务 |
拉普拉斯近似(Laplace Approximation):在 MAP 估计处用高斯分布近似后验——在高斯分布的均值处做二阶泰勒展开。这是连接 MAP 估计和贝叶斯推断的桥梁方法,也是 PRML 中反复出现的工具。
4.4 第 5 章:神经网络(经典 MLP 视角)
PRML 第 5 章对神经网络的讨论是基于 2006 年之前的知识,但以下内容仍然具有深刻价值:
- BP 算法的链式法则推导(核心,至今未变)
- Hessian 矩阵的计算和用途:快速优化、拉普拉斯近似、剪枝
- 正则化:weight decay、early stopping、invariance(通过数据增强)
- 混合密度网络(MDN):输出不是单一值,而是一个混合分布——这在不确定性量化中越来越重要
4.5 第 8 章:概率图模型
全书最重要的章节之一。概率图模型是将概率分布结构化为图的方法,使得复杂的联合概率分解为条件概率的乘积:
有向图(贝叶斯网络):
$$p(\mathbf{x}) = \prod_{k=1}^{K} p(x_k \mid \text{pa}_k)$$
无向图(马尔可夫随机场):
$$p(\mathbf{x}) = \frac{1}{Z} \prod_{C} \psi_C(\mathbf{x}_C)$$
d-分离:判断变量之间是否条件独立的关键判据。这对于理解推断算法的正确性和设计新的图模型至关重要。
4.6 第 9 章:EM 算法
EM(Expectation-Maximization)是 Bishop 最引以为豪的通用算法之一。对于含有潜变量 $\mathbf{Z}$ 的模型:
$$ \ln p(\mathbf{X} \mid \boldsymbol{\theta}) = \mathcal{L}(q, \boldsymbol{\theta}) + \text{KL}(q \parallel p) $$
其中 $\mathcal{L}(q, \boldsymbol{\theta})$ 是证据下界(ELBO, Evidence Lower Bound):
$$\mathcal{L}(q, \boldsymbol{\theta}) = \int q(\mathbf{Z}) \ln\left(\frac{p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})}{q(\mathbf{Z})}\right) d\mathbf{Z}$$
EM 算法的两步迭代:
- E 步:固定 $\boldsymbol{\theta}^{\text{old}}$,最大化 $\mathcal{L}$ 关于 $q$,得 $q(\mathbf{Z}) = p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}^{\text{old}})$
- M 步:固定 $q$,最大化 $\mathcal{L}$ 关于 $\boldsymbol{\theta}$
注意:EM 的 E 步要求后验 $p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta})$ 可以精确计算。当这不可行时(大多数有趣的情况),就需要第 10 章的变分 EM。
4.7 第 10 章:变分推断
当精确推断不可行时,变分推断提供了一个确定性近似方案。核心思想:用一族参数化的分布 $q(\mathbf{Z} \mid \boldsymbol{\omega})$ 来近似真实后验 $p(\mathbf{Z} \mid \mathbf{X})$,通过最大化 ELBO 来找到最优的 $\boldsymbol{\omega}$。
均值场近似(Mean-Field Approximation):假设各变量的后验相互独立:
$$q(\mathbf{Z}) = \prod_{i=1}^{M} q_i(\mathbf{Z}_i)$$
在这个假设下,每个 $q_i$ 的最佳形式为:
$$\ln q_i^*(\mathbf{Z}_i) = \mathbb{E}_{j \neq i}[\ln p(\mathbf{X}, \mathbf{Z})] + \text{const}$$
这与坐标上升(Coordinate Ascent)的迭代求解完美匹配。
变分推断 vs MCMC:
| 维度 | 变分推断 | MCMC |
|---|---|---|
| 性质 | 确定性近似 | 随机精确(无限采样极限下精确) |
| 计算 | 通常更快 | 通常更慢 |
| 收敛判定 | 明确(ELBO 收敛) | 模糊(需要收敛诊断) |
| 适用场景 | 大规模数据、实时推断 | 小规模数据的精确推断 |
4.8 第 11 章:采样方法(MCMC)
当变分推断的假设过于严苛时,MCMC 提供了另一个选择——通过构造一条以目标分布为平稳分布的马尔可夫链来生成样本。
Metropolis-Hastings 算法:
1. 从提议分布 q(z* | z^(τ)) 中采样候选点 z* |
Gibbs 采样:Metropolis-Hastings 的特例,提议分布为条件分布 $q(z_k^* \mid z_{-k}) = p(z_k^* \mid z_{-k})$,接受概率恒为 1。
HMC(Hamiltonian Monte Carlo / Hybrid Monte Carlo):利用目标分布的梯度信息,在相空间中进行哈密顿动力学模拟,能更有效地探索高维分布。HMC 是现代概率编程语言(Stan, PyMC, NumPyro)的默认采样算法之一。
五、PRML 与现代深度学习的连接
5.1 直接联系
| PRML 概念 | 现代 DL 对应 |
|---|---|
| 反向传播(5.3 节) | 所有 DL 框架的基础(autograd 是其自动化实现) |
| 贝叶斯线性回归 | 贝叶斯神经网络、Laplace Redux |
| EM 算法 | VAE 的训练(ELBO 最大化 = EM 的连续潜变量推广) |
| 变分推断(第 10 章) | VAE, VQ-VAE, Diffusion Models 的变分下界 |
| 高斯过程(6.4 节) | Deep GP, Neural Tangent Kernel (NTK) |
| 混合密度网络(5.6 节) | 现代不确定性估计的核心组件 |
| Hessian 对角近似(5.4 节) | 二阶优化器(KFAC, Shampoo, AdaHessian) |
| 证据近似(3.5 节) | Type-II MLE, Deep Kernel Learning |
5.2 间接但深层的联系
- 概率视角的 PCA(12.2 节):将 PCA 解释为线性高斯模型下的 MLE → 推广到非线性隐变量模型 → 变分自编码器(VAE)
- 指数族 + 共轭先验:理解贝叶斯深度学习的理论基础
- 信息论(1.6 节):KL 散度 → 变分推断的损失函数;互信息 → InfoNCE、对比学习
- 贝叶斯模型平均 vs 模型选择:理解 Deep Ensemble 为什么比单模型好
六、学习建议与资源
6.1 三阶段学习法
阶段 1(基础了解,2-4 周):
- 通读第 1 章,理解概率建模的基本思想
- 选择性阅读第 2 章(根据数学基础)
- 阅读第 3 章(线性回归的三种范式,全书核心思想的集中体现)
阶段 2(核心掌握,1-2 个月):
- 第 8 章(图模型)→ 第 9 章(EM)→ 第 10 章(变分推断)→ 第 11 章(MCMC)
- 这四章构成了 PRML 的”计算核心”,也是最能区别于一般 ML 教材的内容
阶段 3(深入研究,2-4 个月):
- 精读剩余章节(第 5, 6, 7, 12, 13, 14 章)
- 每章选做至少 5 道习题
6.2 配套资源
| 资源类型 | 推荐 |
|---|---|
| 官方习题解答 | Bishop 官网提供了部分习题解(https://www.microsoft.com/en-us/research/people/cmbishop/) |
| 视频课程 | Tübingen 大学 Philipp Hennig 的”Probabilistic Machine Learning”(现代视角) |
| 代码实现 | ctgk/PRML(GitHub,Python 实现的 PRML 算法) |
| 配套书籍(进阶) | Murphy《Probabilistic Machine Learning》系列(2022/2023,全面现代化)、Bishop 新书《Deep Learning: Foundations and Concepts》(2023) |
| 数学补充 | 若觉得数学吃力,先看附录 B(概率论)、附录 C(矩阵性质)、附录 E(拉格朗日乘子) |
6.3 PRML 中容易卡住的地方
- 2.3 节(高斯分布):多变量高斯的条件分布和边缘分布的矩阵推导较长,可先接受结论跳过证明
- 4.4 节(拉普拉斯近似):初次阅读可能不理解其重要性,在变分推断章节(第 10 章)再看会清晰很多
- 10.1-10.4 节(变分推断):均值场推断的”坐标上升”推导是全书的数学高难点,建议配合视频讲解
- 11.5 节(HMC):如果缺乏物理背景,可以暂时跳过哈密顿动力学的物理解释,关注算法的伪代码即可
七、关键章节深度扩展
7.1 第 2 章:概率分布——构建完整的分布工具箱
第 2 章是全书数学最密集的章节之一,也是后续所有推导的基础。以下是需要重点关注的核心分布及其关系:
指数族(Exponential Family)的统一视角:
几乎所有常用的概率分布都可以写成指数族形式:
$$ p(\mathbf{x} \mid \boldsymbol{\eta}) = h(\mathbf{x}) g(\boldsymbol{\eta}) \exp(\boldsymbol{\eta}^T \mathbf{u}(\mathbf{x})) $$
其中 $\boldsymbol{\eta}$ 是自然参数(natural parameter),$\mathbf{u}(\mathbf{x})$ 是充分统计量(sufficient statistic)。
为什么指数族如此重要?因为:
- 充分统计量存在:$\mathbf{u}(\mathbf{x})$ 包含了 $\mathbf{x}$ 关于参数的全部信息
- 共轭先验存在:任何指数族分布都有共轭先验,也属于指数族
- 最大熵性质:在给定约束(充分统计量的期望固定)下,指数族是熵最大的分布——即在给定信息约束下,它是最”不武断”的选择
- 梯度与充分统计量的关系:$\nabla_{\boldsymbol{\eta}} \ln g(\boldsymbol{\eta}) = -\mathbb{E}[\mathbf{u}(\mathbf{x})]$
Beta 分布与顺序学习:
Beta 分布的重要性远超表象。它是伯努利/二项似然的共轭先验:
$$\text{Beta}(\mu \mid a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1}$$
顺序贝叶斯更新:观察到一个新数据点(正面)后:
$$p(\mu \mid \mathcal{D}, \text{正面}) \propto \text{Beta}(\mu \mid a, b) \times \mu = \text{Beta}(\mu \mid a+1, b)$$
即后验先验的 a 参数加 1。这种”加计数”的直观更新方式揭示了贝叶斯学习的美妙之处——先验的 a 和 b 可以理解为”假想的先前观察计数”。
Wishart 分布与高斯推断:
对于多变量高斯分布,均值的共轭先验仍是高斯,但协方差矩阵的共轭先验是 Wishart 分布。联合推断时使用 Gaussian-Wishart(或 Gaussian-Gamma)先验。这一套分布族构成了贝叶斯线性模型、高斯混合模型、因子分析等模型推断的基础。
7.2 第 8 章:概率图模型的三种基本结构
理解以下三种基本图结构的条件独立性关系是读懂图模型的关键:
Head-to-Tail(链式):$A \rightarrow B \rightarrow C$
- 无条件时:$A$ 与 $C$ 相关(通过 B)
- 条件于 B:$A \perp!!!\perp C \mid B$(B 被观察后,A 和 C 条件独立)
- 直观理解:如果 B 已知,A 不能通过 B 传递额外信息给 C
Tail-to-Tail(分叉):$A \leftarrow B \rightarrow C$
- 无条件时:$A$ 与 $C$ 相关(共享原因 B)
- 条件于 B:$A \perp!!!\perp C \mid B$
- 直观理解:解释消除(explaining away)的对称结构——知道共同原因后,其结果之间独立
- 这就是”朴素贝叶斯”的图结构:给定类别,特征之间条件独立
Head-to-Head(汇合/V-Structure):$A \rightarrow B \leftarrow C$
- 无条件时:$A$ 与 $C$ 独立(无信息通道)
- 条件于 B:$A$ 与 $C$ 相关!
- 直观理解:解释消除(explaining away)——如果观察到结果 B 发生了,那么 A 和 C 作为两个可能的”原因”会互相竞争。知道 A 很大程度上导致了 B,就会降低 C 导致 B 的可信度。
- 这是三个结构中唯一一个”条件后变相关”的反直觉情况
d-分离(Directed Separation)的形式化定义:
一个节点集合 $\mathcal{C}$ d-分离了节点 A 和 B,当且仅当连接 A 和 B 的所有路径都被 $\mathcal{C}$ “阻塞”:
- 如果路径包含 Head-to-Tail 或 Tail-to-Tail 节点,且该节点在 $\mathcal{C}$ 中,路径被阻塞
- 如果路径包含 Head-to-Head 节点,且该节点及所有后代都不在 $\mathcal{C}$ 中,路径被阻塞
7.3 第 12 章:PCA 的概率视角
标准 PCA 可以被重新解释为概率模型——概率 PCA(Probabilistic PCA, PPCA):
传统 PCA:线性投影,最大化投影后方差(或最小化重构误差)。
概率 PCA:假设数据生成过程为:
$$\mathbf{x} = \mathbf{W}\mathbf{z} + \boldsymbol{\mu} + \boldsymbol{\epsilon}$$
其中潜变量 $\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})$,噪声 $\boldsymbol{\epsilon} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})$。
通过最大似然估计 $\mathbf{W}$,得到的最大似然解与标准 PCA 的主成分方向一致(差一个旋转矩阵)。但 PPCA 的优势在于:
- 概率框架:可以计算数据点的对数似然,用于模型选择(选择主成分数量)
- 处理缺失值:通过 EM 算法自然地处理缺失数据(旧 PCA 需要专门的方法如迭代 PCA)
- 推广到非线性:从 PPCA 出发,将线性映射 $\mathbf{W}\mathbf{z}$ 替换为神经网络 $f_\theta(\mathbf{z})$,我们就得到了变分自编码器(VAE)的基础结构
- 贝叶斯 PCA:在 $\mathbf{W}$ 上加先验(如 ARD 先验),可以自动确定有效的主成分数量
八、PRML 的数学难点突破指南
8.1 不会推导矩阵微积分怎么办?
PRML 中有大量矩阵求导。核心公式速查:
| 形式 | 导数 | 出现章节 |
|---|---|---|
| $\frac{\partial}{\partial \mathbf{x}} \mathbf{a}^T \mathbf{x}$ | $\mathbf{a}$ | 第 4 章 |
| $\frac{\partial}{\partial \mathbf{x}} \mathbf{x}^T \mathbf{A} \mathbf{x}$ | $(\mathbf{A} + \mathbf{A}^T)\mathbf{x}$ | 第 3 章 |
| $\frac{\partial}{\partial \mathbf{A}} \ln | \mathbf{A} | $ |
| $\frac{\partial}{\partial \mathbf{A}} \mathbf{x}^T \mathbf{A}^{-1} \mathbf{y}$ | $-\mathbf{A}^{-T} \mathbf{x} \mathbf{y}^T \mathbf{A}^{-T}$ | 各种 |
建议:PRML 附录 C(矩阵性质)+ Petersen & Pedersen 的《The Matrix Cookbook》作为查表工具。
8.2 理解 KL 散度不对称性的实际意义
KL 散度 $\text{KL}(q \parallel p) = \int q(x) \ln\frac{q(x)}{p(x)} dx$ 是不对称的。
- $\text{KL}(q \parallel p)$(前向 KL / 排他性 KL):在 $p$ 大的地方 $q$ 也必须大,否则惩罚很重 → 变分推断使用此方向 → 导致 $q$ 趋于”模式搜索”(mode-seeking),倾向于集中在 $p$ 的一个峰值上
- $\text{KL}(p \parallel q)$(后向 KL / 包容性 KL):在 $p$ 有概率的地方 $q$ 也必须有 → 期望传播(EP)使用此方向 → 导致 $q$ 趋于”模式覆盖”(mode-covering),倾向于覆盖 $p$ 的所有区域
直观理解:$q$ 是近似分布,$p$ 是真实分布。
- 前向 KL 关心的是”万一 $p$ 说某件事可能发生,而 $q$ 说不可能”→ 惩罚非常大 → $q$ 会保守地集中在 $p$ 的高概率区域
- 后向 KL 关心的是”万一 $q$ 说某件事可能发生,但 $p$ 说不可能”→ 惩罚非常大 → $q$ 会试图覆盖 $p$ 的所有概率区域
九、核心习题精选
以下是值得亲手推导的习题(按难度排序):
入门:
- 1.5(证明最小化期望损失等价于选择最大后验类别)
- 2.15(证明高斯分布的熵公式)
- 3.6(推导线性基函数模型的 MLE 解)
中等:
- 3.16(推导贝叶斯线性回归的证据函数)
- 4.15(推导 probit 回归的 EM 算法)
- 8.14(证明 d-分离的某些性质)
- 9.11(推导 GMM 的 EM 更新公式)
困难:
- 10.16(推导变分混合模型的变分下界)
- 11.17(实现 HMC 并对某分布采样)
- 13.8(推导 HMM 的前向后向算法)
八、为什么 2025 年还要读 PRML?
- **概率思维是 ML 的”第一性原理”**:理解了贝叶斯推断,就理解了几乎所有机器学习模型的底层逻辑
- 变分推断和 MCMC 正变得比以往任何时候都更重要:生成式 AI 时代的核心数学工具
- 从 PRML 到 Bishop 2023 新书的连续统:PRML 提供了理论基础,新书《Deep Learning: Foundations and Concepts》提供了现代视角
- 面试和研究都绕不开:无论是 PhD 申请面试还是工业界 ML 研究岗,”PRML 读到哪了”仍然是一个有分量的问题
- 避免”调参侠”陷阱:只有坚实的理论功底,才能从现象级工程师变成能设计和改进算法的工程师
九、面试高频问答
Q1: PRML 的核心理念是什么?它与其他 ML 教材最大的区别在哪里?
PRML 的核心理念是一切问题都可以从概率建模的角度来理解。其他教材可能从优化(loss minimization)的角度组织内容,PRML 则始终从概率分布的角度出发——模型的输出是一个概率分布(预测分布),而不是一个点估计。这种视角在处理不确定性、模型比较、先验知识融入等方面有天然优势。特别是整本书用贝叶斯框架串联所有算法,让你看到线性回归、SVM、神经网络、EM、变分推断这些看似无关的方法其实共享同一个概率基础。
Q2: 请用 PRML 的框架解释 EM 算法和变分推断的关系。
EM 和变分推断都是用来处理”有潜变量时如何最大化对数似然”的问题,区别在于 E 步是否能精确计算后验。两者的统一公式是 ELBO(证据下界):
$$\ln p(\mathbf{X} \mid \boldsymbol{\theta}) = \underbrace{\mathbb{E}_q[\ln p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})] + H[q]}_{\text{ELBO } \mathcal{L}(q, \boldsymbol{\theta})} + \underbrace{\text{KL}(q \parallel p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}))}_{\geq 0}$$
EM 算法的 E 步:令 $q(\mathbf{Z}) = p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}^{\text{old}})$,使得 KL 项变为 0,ELBO 等于对数似然(紧密性)。但这要求后验可以精确计算。
变分推断:当后验不可精确计算时,我们约束 $q(\mathbf{Z})$ 在一个更简单的函数族(如均值场:$q(\mathbf{Z}) = \prod_i q_i(Z_i)$)中,然后最大化 ELBO——即找”约束族内最接近真实后验的近似”。此时 KL 项 > 0,ELBO 是 $\ln p$ 的下界。
Q3: 贝叶斯线性回归和 Ridge 回归看起来形式很像,它们的本质区别是什么?
Ridge 回归(频率学派):$\min_{\mathbf{w}} |\mathbf{y} - \mathbf{X}\mathbf{w}|^2 + \lambda |\mathbf{w}|^2$,得到一个点估计 $\hat{\mathbf{w}}$。
贝叶斯线性回归(贝叶斯学派):为 $\mathbf{w}$ 赋予高斯先验 $p(\mathbf{w}) = \mathcal{N}(\mathbf{w} \mid 0, \alpha^{-1}\mathbf{I})$,计算后验 $p(\mathbf{w} \mid \mathcal{D}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N)$。后验均值 $\mathbf{m}_N$ 的公式等价于 Ridge 的解(当 $\lambda = \alpha / \beta$ 时),但区别在于:
- 贝叶斯回归给出的是整个后验分布,而不仅仅是均值。后验协方差 $\mathbf{S}_N$ 量化了参数的不确定性。
- 贝叶斯回归的预测也是分布(预测分布),包含了噪声不确定性和参数不确定性:$\sigma_N^2(\mathbf{x}) = \beta^{-1} + \phi(\mathbf{x})^T \mathbf{S}_N \phi(\mathbf{x})$
- 贝叶斯框架中,超参数 $\alpha$ 和 $\beta$ 可以通过最大化证据(marginal likelihood)自动选择,而不需要交叉验证
Q4: PRML 中的”证据近似(Evidence Approximation)”是什么?它与交叉验证选超参数有什么不同?
证据近似(也称 Empirical Bayes 或 Type-II MLE)是通过最大化边缘似然(marginal likelihood / model evidence)$p(\mathcal{D} \mid \alpha, \beta)$ 来选择超参数。与交叉验证相比:
- 证据近似是纯训练集操作(不需要验证集),最大化的是训练数据的边际概率——隐含了 Occam’s Razor 效应(贝叶斯证据自动惩罚过于复杂的模型)
- 交叉验证需要划分验证集,是一种频率学派的模型选择方法
在实践中,证据近似在贝叶斯线性回归等简单模型中效果很好(甚至能得到解析解),但在复杂模型(如深度网络)中难以直接应用。
Q5: MCMC 和变分推断在什么场景下应该选哪个?
选择依据:
- 精度要求高 + 计算预算充足:MCMC。MCMC 在极限下是精确的(马尔可夫链收敛到真实后验),适合学术研究、模型开发阶段。
- 速度要求高 + 可接受近似:变分推断。变分推断通常快 1-3 个数量级,适合大规模数据、在线学习、生产环境。
- 后验是单峰且近似高斯:两者效果相近,优先选变分推断(快)。
- 后验是多峰的复杂分布:MCMC 更可靠。均值场变分推断在多峰分布上可能完全遗漏某个模式(mode collapse)。
- 需要估计模型的证据(marginal likelihood)用于模型比较:变分推断(ELBO 是 $\ln p(\mathcal{D})$ 的下界,可直接用于模型比较)。MCMC 估计 marginal likelihood 通常更麻烦。

