目录
  1. 1. 一、为什么 PRML 至今仍是必读经典?
    1. 1.1. 1.1 PRML 的独特定位
    2. 1.2. 1.2 PRML 的核心思想
  2. 2. 二、章节导航与学习重点
    1. 2.1. 2.1 全书 14 章概览
    2. 2.2. 2.2 章节关系图
  3. 3. 三、数学基础与前置知识
    1. 3.1. 3.1 必备基础知识
    2. 3.2. 3.2 概率论速查:PRML 中最核心的分布
  4. 4. 四、各章核心概念详解
    1. 4.1. 4.1 第 1 章:引言——曲线拟合背后的哲学
    2. 4.2. 4.2 第 3 章:线性回归的三种视角
    3. 4.3. 4.3 第 4 章:分类的三种进路
    4. 4.4. 4.4 第 5 章:神经网络(经典 MLP 视角)
    5. 4.5. 4.5 第 8 章:概率图模型
    6. 4.6. 4.6 第 9 章:EM 算法
    7. 4.7. 4.7 第 10 章:变分推断
    8. 4.8. 4.8 第 11 章:采样方法(MCMC)
  5. 5. 五、PRML 与现代深度学习的连接
    1. 5.1. 5.1 直接联系
    2. 5.2. 5.2 间接但深层的联系
  6. 6. 六、学习建议与资源
    1. 6.1. 6.1 三阶段学习法
    2. 6.2. 6.2 配套资源
    3. 6.3. 6.3 PRML 中容易卡住的地方
  7. 7. 七、关键章节深度扩展
    1. 7.1. 7.1 第 2 章:概率分布——构建完整的分布工具箱
    2. 7.2. 7.2 第 8 章:概率图模型的三种基本结构
    3. 7.3. 7.3 第 12 章:PCA 的概率视角
  8. 8. 八、PRML 的数学难点突破指南
    1. 8.1. 8.1 不会推导矩阵微积分怎么办?
    2. 8.2. 8.2 理解 KL 散度不对称性的实际意义
  9. 9. 九、核心习题精选
  10. 10. 八、为什么 2025 年还要读 PRML?
  11. 11. 九、面试高频问答
【模式识别和机器学习】初窥AI圣经

《Pattern Recognition and Machine Learning》(PRML)是 Christopher M. Bishop 于 2006 年出版的经典著作,被学术界和工业界公认为”机器学习圣经”之一。不同于一些偏重工程应用的教材,PRML 从概率论贝叶斯统计的视角系统地构建了机器学习的理论框架。本文将提供一份完整的学习指南和概念地图。


一、为什么 PRML 至今仍是必读经典?

1.1 PRML 的独特定位

维度 PRML 《统计学习方法》(李航) 《Deep Learning》(Goodfellow)
哲学基础 贝叶斯概率论 频率学派 概率 + 工程直觉
核心方法 概率图模型 统计学习理论 深度神经网络
数学深度 高(需要多元微积分+线性代数+概率论) 中高
涵盖范围 经典 ML 全覆盖 以分类/回归为主 以 DL 为主
写作年代 2006(但核心内容不老) 2012/2019 2016
与现代 DL 的关系 提供 DL 的概率论基础 几乎无关 直接相关

PRML 的价值不在于教你跑一个 XGBoost 或训练一个 CNN,而在于它为理解模型为什么有效提供了统一的概率框架。当你理解了 EM 算法、变分推断、MCMC,你会发现深度生成模型(VAE、扩散模型)、贝叶斯神经网络、概率编程等前沿话题都建立在这些基础之上。

1.2 PRML 的核心思想

PRML 全书围绕一个中心问题展开:如何从数据中学习概率分布?

  • 如果我们可以对数据分布 $p(x, t)$ 建模,那么分类就是 $p(t \mid x)$,回归就是 $\mathbb{E}[t \mid x]$
  • 概率建模意味着我们需要处理不确定性——参数的不确定性、模型选择的不确定性、预测的不确定性
  • 贝叶斯框架通过先验 + 似然 → 后验提供了处理不确定性的统一方法

二、章节导航与学习重点

2.1 全书 14 章概览

章节 标题 页数 难度 重要性 核心内容
1 引言 ~70 ★★★ 曲线拟合、概率论基础、决策论、信息论
2 概率分布 ~70 ★★★ 二项、多项、高斯、Student-t、指数族、无信息先验
3 线性回归模型 ~70 ★★★ 基函数、偏差-方差分解、贝叶斯线性回归、证据近似
4 线性分类模型 ~70 ★★☆ 判别函数、概率生成模型、概率判别模型、拉普拉斯近似
5 神经网络 ~40 ★★☆ MLP、BP 的贝叶斯视角、正则化
6 核方法 ~50 中高 ★★☆ 对偶表示、构造核、RBF 网络、高斯过程
7 稀疏核机 ~40 中高 ★☆☆ SVM、RVM
8 概率图模型 ~70 ★★★ 贝叶斯网络、马尔可夫随机场、d-分离、推断
9 混合模型与 EM ~50 ★★★ K-means、GMM、EM 算法通用形式
10 近似推断 ~70 ★★★ 变分推断、局部变分法、期望传播(EP)
11 采样方法 ~50 ★★★ MCMC、Metropolis-Hastings、Gibbs、切片采样、HMC
12 连续潜变量 ~50 ★★☆ PCA(概率视角)、PPCA、因子分析、ICA
13 序列数据 ~50 ★★☆ HMM、线性动态系统
14 组合模型 ~50 ★☆☆ 组合、Boosting、决策树、条件混合模型

2.2 章节关系图

第1章(基础)

第2章(概率分布工具箱)

第3章(线性回归) ←→ 第4章(线性分类)
↓ ↓
第5章(NN) ←→ 第6-7章(核方法/SVM/RVM)

第8章(概率图模型)【全书核心/分水岭】

第9章(混合模型+EM)

第10章(变分推断) ←→ 第11章(MCMC采样)
↓ ↓
第12章(潜变量模型) 第13章(序列模型)

第14章(组合模型)

建议的阅读路线:

  • 快速路线(1-2 个月):第 1 → 2 → 3 → 4 → 8 → 9 → 10
  • 系统路线(3-4 个月):按章节顺序,重点在第 2, 3, 8, 9, 10, 11
  • 研究路线(6 个月+):全书精读 + 每章习题

三、数学基础与前置知识

3.1 必备基础知识

数学领域 要求 关键概念 补充材料
线性代数 扎实 特征值/特征向量、矩阵分解(Cholesky, SVD)、正定矩阵、迹和行列式 Strang《Linear Algebra》
多元微积分 扎实 梯度、Hessian、Jacobian、拉格朗日乘子、方向导数 Stewart《Calculus》
概率论 扎实 条件概率、贝叶斯定理、期望/方差/协方差、变换方法、测度论基础 MIT 6.041 课程
信息论 基础 熵、KL 散度、互信息 PRML 第 1.6 节足够
优化 基础 凸优化、梯度下降、牛顿法、拉格朗日对偶 PRML 附录 E 足够
统计 基础 MLE、MAP、置信区间 vs 可信区间 PRML 第 2 章覆盖

3.2 概率论速查:PRML 中最核心的分布

高斯分布(全书最高频的分布)

单变量:$\mathcal{N}(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

多变量:$\mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)$

共轭先验:如果后验分布与先验分布属于同一分布族,则称该先验为似然函数的共轭先验。例如:

  • 二项似然 + Beta 先验 → Beta 后验
  • 高斯似然(已知方差)+ 高斯先验 → 高斯后验
  • 高斯似然(未知均值)+ Gaussian-Gamma 先验 → Gaussian-Gamma 后验

指数族分布:Bishop 反复强调指数族的重要性——大多数常见的概率分布都属于指数族,而指数族有一些优雅的性质(充分统计量、共轭先验存在、最大熵性质)。


四、各章核心概念详解

4.1 第 1 章:引言——曲线拟合背后的哲学

以多项式曲线拟合为例,引入:

  • 过拟合与正则化:M=9 的多项式完美通过所有训练点但剧烈震荡 → 需要控制模型复杂度
  • 训练集大小 vs 模型复杂度:数据越多,可以用越复杂的模型
  • MLE vs MAP vs Bayesian:最大似然估计(仅用似然)、最大后验估计(先验 × 似然)、全贝叶斯(边际化所有参数)

$$\text{MLE: } \mathbf{w}_{ML} = \arg\max_{\mathbf{w}} p(\mathcal{D} \mid \mathbf{w})$$

$$\text{MAP: } \mathbf{w}_{MAP} = \arg\max_{\mathbf{w}} p(\mathbf{w} \mid \mathcal{D}) = \arg\max_{\mathbf{w}} p(\mathcal{D} \mid \mathbf{w})p(\mathbf{w})$$

$$\text{Bayesian: } p(t \mid \mathbf{x}, \mathcal{D}) = \int p(t \mid \mathbf{x}, \mathbf{w}) p(\mathbf{w} \mid \mathcal{D}) d\mathbf{w}$$

4.2 第 3 章:线性回归的三种视角

Bishop 用同一组线性模型展示了三种不同的训练哲学:

频率学派(MLE):$\min_{\mathbf{w}} \sum_i (t_i - \mathbf{w}^T \phi(\mathbf{x}_i))^2$ + 可选 L2 正则

MAP 估计(频率+先验):$\min_{\mathbf{w}} \sum_i (t_i - \mathbf{w}^T \phi(\mathbf{x}_i))^2 + \lambda |\mathbf{w}|^2$,等价于高斯先验下的 MAP

全贝叶斯(后验分布):$p(\mathbf{w} \mid \mathcal{D}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N)$,然后对 $\mathbf{w}$ 积分得到预测分布。预测分布不仅有预测均值,还有预测方差——后者量化了预测的不确定性(在 MLE 和 MAP 中都是缺失的)。

证据近似(Evidence Approximation / Empirical Bayes):对超参数 $\alpha$ 和 $\beta$(先验精度和噪声精度)最大化证据(marginal likelihood / model evidence)$p(\mathcal{D} \mid \alpha, \beta)$。这是一种介于全贝叶斯和 MAP 之间的折中方案。

4.3 第 4 章:分类的三种进路

进路 方法 特点
判别函数 直接找决策边界(Fisher 线性判别、感知机) 不输出概率,最简单
概率生成模型 对每类的 $p(\mathbf{x} \mid C_k)$ 建模,用贝叶斯求 $p(C_k \mid \mathbf{x})$ 可生成新样本,但建模复杂
概率判别模型 直接建模 $p(C_k \mid \mathbf{x})$(逻辑回归) 参数更少,专注分类任务

拉普拉斯近似(Laplace Approximation):在 MAP 估计处用高斯分布近似后验——在高斯分布的均值处做二阶泰勒展开。这是连接 MAP 估计和贝叶斯推断的桥梁方法,也是 PRML 中反复出现的工具。

4.4 第 5 章:神经网络(经典 MLP 视角)

PRML 第 5 章对神经网络的讨论是基于 2006 年之前的知识,但以下内容仍然具有深刻价值:

  • BP 算法的链式法则推导(核心,至今未变)
  • Hessian 矩阵的计算和用途:快速优化、拉普拉斯近似、剪枝
  • 正则化:weight decay、early stopping、invariance(通过数据增强)
  • 混合密度网络(MDN):输出不是单一值,而是一个混合分布——这在不确定性量化中越来越重要

4.5 第 8 章:概率图模型

全书最重要的章节之一。概率图模型是将概率分布结构化为图的方法,使得复杂的联合概率分解为条件概率的乘积:

有向图(贝叶斯网络)

$$p(\mathbf{x}) = \prod_{k=1}^{K} p(x_k \mid \text{pa}_k)$$

无向图(马尔可夫随机场)

$$p(\mathbf{x}) = \frac{1}{Z} \prod_{C} \psi_C(\mathbf{x}_C)$$

d-分离:判断变量之间是否条件独立的关键判据。这对于理解推断算法的正确性和设计新的图模型至关重要。

4.6 第 9 章:EM 算法

EM(Expectation-Maximization)是 Bishop 最引以为豪的通用算法之一。对于含有潜变量 $\mathbf{Z}$ 的模型:

$$ \ln p(\mathbf{X} \mid \boldsymbol{\theta}) = \mathcal{L}(q, \boldsymbol{\theta}) + \text{KL}(q \parallel p) $$

其中 $\mathcal{L}(q, \boldsymbol{\theta})$ 是证据下界(ELBO, Evidence Lower Bound):

$$\mathcal{L}(q, \boldsymbol{\theta}) = \int q(\mathbf{Z}) \ln\left(\frac{p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})}{q(\mathbf{Z})}\right) d\mathbf{Z}$$

EM 算法的两步迭代:

  • E 步:固定 $\boldsymbol{\theta}^{\text{old}}$,最大化 $\mathcal{L}$ 关于 $q$,得 $q(\mathbf{Z}) = p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}^{\text{old}})$
  • M 步:固定 $q$,最大化 $\mathcal{L}$ 关于 $\boldsymbol{\theta}$

注意:EM 的 E 步要求后验 $p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta})$ 可以精确计算。当这不可行时(大多数有趣的情况),就需要第 10 章的变分 EM。

4.7 第 10 章:变分推断

当精确推断不可行时,变分推断提供了一个确定性近似方案。核心思想:用一族参数化的分布 $q(\mathbf{Z} \mid \boldsymbol{\omega})$ 来近似真实后验 $p(\mathbf{Z} \mid \mathbf{X})$,通过最大化 ELBO 来找到最优的 $\boldsymbol{\omega}$。

均值场近似(Mean-Field Approximation):假设各变量的后验相互独立:

$$q(\mathbf{Z}) = \prod_{i=1}^{M} q_i(\mathbf{Z}_i)$$

在这个假设下,每个 $q_i$ 的最佳形式为:

$$\ln q_i^*(\mathbf{Z}_i) = \mathbb{E}_{j \neq i}[\ln p(\mathbf{X}, \mathbf{Z})] + \text{const}$$

这与坐标上升(Coordinate Ascent)的迭代求解完美匹配。

变分推断 vs MCMC

维度 变分推断 MCMC
性质 确定性近似 随机精确(无限采样极限下精确)
计算 通常更快 通常更慢
收敛判定 明确(ELBO 收敛) 模糊(需要收敛诊断)
适用场景 大规模数据、实时推断 小规模数据的精确推断

4.8 第 11 章:采样方法(MCMC)

当变分推断的假设过于严苛时,MCMC 提供了另一个选择——通过构造一条以目标分布为平稳分布的马尔可夫链来生成样本。

Metropolis-Hastings 算法

1. 从提议分布 q(z* | z^(τ)) 中采样候选点 z*
2. 以概率 A = min(1, p(z*)q(z^(τ) | z*) / (p(z^(τ))q(z* | z^(τ)))) 接受
3. 如果接受:z^(τ+1) = z*,否则:z^(τ+1) = z^(τ)

Gibbs 采样:Metropolis-Hastings 的特例,提议分布为条件分布 $q(z_k^* \mid z_{-k}) = p(z_k^* \mid z_{-k})$,接受概率恒为 1。

HMC(Hamiltonian Monte Carlo / Hybrid Monte Carlo):利用目标分布的梯度信息,在相空间中进行哈密顿动力学模拟,能更有效地探索高维分布。HMC 是现代概率编程语言(Stan, PyMC, NumPyro)的默认采样算法之一。


五、PRML 与现代深度学习的连接

5.1 直接联系

PRML 概念 现代 DL 对应
反向传播(5.3 节) 所有 DL 框架的基础(autograd 是其自动化实现)
贝叶斯线性回归 贝叶斯神经网络、Laplace Redux
EM 算法 VAE 的训练(ELBO 最大化 = EM 的连续潜变量推广)
变分推断(第 10 章) VAE, VQ-VAE, Diffusion Models 的变分下界
高斯过程(6.4 节) Deep GP, Neural Tangent Kernel (NTK)
混合密度网络(5.6 节) 现代不确定性估计的核心组件
Hessian 对角近似(5.4 节) 二阶优化器(KFAC, Shampoo, AdaHessian)
证据近似(3.5 节) Type-II MLE, Deep Kernel Learning

5.2 间接但深层的联系

  • 概率视角的 PCA(12.2 节):将 PCA 解释为线性高斯模型下的 MLE → 推广到非线性隐变量模型 → 变分自编码器(VAE)
  • 指数族 + 共轭先验:理解贝叶斯深度学习的理论基础
  • 信息论(1.6 节):KL 散度 → 变分推断的损失函数;互信息 → InfoNCE、对比学习
  • 贝叶斯模型平均 vs 模型选择:理解 Deep Ensemble 为什么比单模型好

六、学习建议与资源

6.1 三阶段学习法

阶段 1(基础了解,2-4 周)

  • 通读第 1 章,理解概率建模的基本思想
  • 选择性阅读第 2 章(根据数学基础)
  • 阅读第 3 章(线性回归的三种范式,全书核心思想的集中体现)

阶段 2(核心掌握,1-2 个月)

  • 第 8 章(图模型)→ 第 9 章(EM)→ 第 10 章(变分推断)→ 第 11 章(MCMC)
  • 这四章构成了 PRML 的”计算核心”,也是最能区别于一般 ML 教材的内容

阶段 3(深入研究,2-4 个月)

  • 精读剩余章节(第 5, 6, 7, 12, 13, 14 章)
  • 每章选做至少 5 道习题

6.2 配套资源

资源类型 推荐
官方习题解答 Bishop 官网提供了部分习题解(https://www.microsoft.com/en-us/research/people/cmbishop/
视频课程 Tübingen 大学 Philipp Hennig 的”Probabilistic Machine Learning”(现代视角)
代码实现 ctgk/PRML(GitHub,Python 实现的 PRML 算法)
配套书籍(进阶) Murphy《Probabilistic Machine Learning》系列(2022/2023,全面现代化)、Bishop 新书《Deep Learning: Foundations and Concepts》(2023)
数学补充 若觉得数学吃力,先看附录 B(概率论)、附录 C(矩阵性质)、附录 E(拉格朗日乘子)

6.3 PRML 中容易卡住的地方

  1. 2.3 节(高斯分布):多变量高斯的条件分布和边缘分布的矩阵推导较长,可先接受结论跳过证明
  2. 4.4 节(拉普拉斯近似):初次阅读可能不理解其重要性,在变分推断章节(第 10 章)再看会清晰很多
  3. 10.1-10.4 节(变分推断):均值场推断的”坐标上升”推导是全书的数学高难点,建议配合视频讲解
  4. 11.5 节(HMC):如果缺乏物理背景,可以暂时跳过哈密顿动力学的物理解释,关注算法的伪代码即可

七、关键章节深度扩展

7.1 第 2 章:概率分布——构建完整的分布工具箱

第 2 章是全书数学最密集的章节之一,也是后续所有推导的基础。以下是需要重点关注的核心分布及其关系:

指数族(Exponential Family)的统一视角

几乎所有常用的概率分布都可以写成指数族形式:

$$ p(\mathbf{x} \mid \boldsymbol{\eta}) = h(\mathbf{x}) g(\boldsymbol{\eta}) \exp(\boldsymbol{\eta}^T \mathbf{u}(\mathbf{x})) $$

其中 $\boldsymbol{\eta}$ 是自然参数(natural parameter),$\mathbf{u}(\mathbf{x})$ 是充分统计量(sufficient statistic)。

为什么指数族如此重要?因为:

  1. 充分统计量存在:$\mathbf{u}(\mathbf{x})$ 包含了 $\mathbf{x}$ 关于参数的全部信息
  2. 共轭先验存在:任何指数族分布都有共轭先验,也属于指数族
  3. 最大熵性质:在给定约束(充分统计量的期望固定)下,指数族是熵最大的分布——即在给定信息约束下,它是最”不武断”的选择
  4. 梯度与充分统计量的关系:$\nabla_{\boldsymbol{\eta}} \ln g(\boldsymbol{\eta}) = -\mathbb{E}[\mathbf{u}(\mathbf{x})]$

Beta 分布与顺序学习

Beta 分布的重要性远超表象。它是伯努利/二项似然的共轭先验:

$$\text{Beta}(\mu \mid a, b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} \mu^{a-1} (1-\mu)^{b-1}$$

顺序贝叶斯更新:观察到一个新数据点(正面)后:

$$p(\mu \mid \mathcal{D}, \text{正面}) \propto \text{Beta}(\mu \mid a, b) \times \mu = \text{Beta}(\mu \mid a+1, b)$$

即后验先验的 a 参数加 1。这种”加计数”的直观更新方式揭示了贝叶斯学习的美妙之处——先验的 a 和 b 可以理解为”假想的先前观察计数”。

Wishart 分布与高斯推断

对于多变量高斯分布,均值的共轭先验仍是高斯,但协方差矩阵的共轭先验是 Wishart 分布。联合推断时使用 Gaussian-Wishart(或 Gaussian-Gamma)先验。这一套分布族构成了贝叶斯线性模型、高斯混合模型、因子分析等模型推断的基础。

7.2 第 8 章:概率图模型的三种基本结构

理解以下三种基本图结构的条件独立性关系是读懂图模型的关键:

Head-to-Tail(链式):$A \rightarrow B \rightarrow C$

  • 无条件时:$A$ 与 $C$ 相关(通过 B)
  • 条件于 B:$A \perp!!!\perp C \mid B$(B 被观察后,A 和 C 条件独立)
  • 直观理解:如果 B 已知,A 不能通过 B 传递额外信息给 C

Tail-to-Tail(分叉):$A \leftarrow B \rightarrow C$

  • 无条件时:$A$ 与 $C$ 相关(共享原因 B)
  • 条件于 B:$A \perp!!!\perp C \mid B$
  • 直观理解:解释消除(explaining away)的对称结构——知道共同原因后,其结果之间独立
  • 这就是”朴素贝叶斯”的图结构:给定类别,特征之间条件独立

Head-to-Head(汇合/V-Structure):$A \rightarrow B \leftarrow C$

  • 无条件时:$A$ 与 $C$ 独立(无信息通道)
  • 条件于 B:$A$ 与 $C$ 相关
  • 直观理解:解释消除(explaining away)——如果观察到结果 B 发生了,那么 A 和 C 作为两个可能的”原因”会互相竞争。知道 A 很大程度上导致了 B,就会降低 C 导致 B 的可信度。
  • 这是三个结构中唯一一个”条件后变相关”的反直觉情况

d-分离(Directed Separation)的形式化定义

一个节点集合 $\mathcal{C}$ d-分离了节点 A 和 B,当且仅当连接 A 和 B 的所有路径都被 $\mathcal{C}$ “阻塞”:

  • 如果路径包含 Head-to-Tail 或 Tail-to-Tail 节点,且该节点在 $\mathcal{C}$ 中,路径被阻塞
  • 如果路径包含 Head-to-Head 节点,且该节点及所有后代都不在 $\mathcal{C}$ 中,路径被阻塞

7.3 第 12 章:PCA 的概率视角

标准 PCA 可以被重新解释为概率模型——概率 PCA(Probabilistic PCA, PPCA):

传统 PCA:线性投影,最大化投影后方差(或最小化重构误差)。

概率 PCA:假设数据生成过程为:

$$\mathbf{x} = \mathbf{W}\mathbf{z} + \boldsymbol{\mu} + \boldsymbol{\epsilon}$$

其中潜变量 $\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})$,噪声 $\boldsymbol{\epsilon} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})$。

通过最大似然估计 $\mathbf{W}$,得到的最大似然解与标准 PCA 的主成分方向一致(差一个旋转矩阵)。但 PPCA 的优势在于:

  1. 概率框架:可以计算数据点的对数似然,用于模型选择(选择主成分数量)
  2. 处理缺失值:通过 EM 算法自然地处理缺失数据(旧 PCA 需要专门的方法如迭代 PCA)
  3. 推广到非线性:从 PPCA 出发,将线性映射 $\mathbf{W}\mathbf{z}$ 替换为神经网络 $f_\theta(\mathbf{z})$,我们就得到了变分自编码器(VAE)的基础结构
  4. 贝叶斯 PCA:在 $\mathbf{W}$ 上加先验(如 ARD 先验),可以自动确定有效的主成分数量

八、PRML 的数学难点突破指南

8.1 不会推导矩阵微积分怎么办?

PRML 中有大量矩阵求导。核心公式速查:

形式 导数 出现章节
$\frac{\partial}{\partial \mathbf{x}} \mathbf{a}^T \mathbf{x}$ $\mathbf{a}$ 第 4 章
$\frac{\partial}{\partial \mathbf{x}} \mathbf{x}^T \mathbf{A} \mathbf{x}$ $(\mathbf{A} + \mathbf{A}^T)\mathbf{x}$ 第 3 章
$\frac{\partial}{\partial \mathbf{A}} \ln \mathbf{A} $
$\frac{\partial}{\partial \mathbf{A}} \mathbf{x}^T \mathbf{A}^{-1} \mathbf{y}$ $-\mathbf{A}^{-T} \mathbf{x} \mathbf{y}^T \mathbf{A}^{-T}$ 各种

建议:PRML 附录 C(矩阵性质)+ Petersen & Pedersen 的《The Matrix Cookbook》作为查表工具。

8.2 理解 KL 散度不对称性的实际意义

KL 散度 $\text{KL}(q \parallel p) = \int q(x) \ln\frac{q(x)}{p(x)} dx$ 是不对称的。

  • $\text{KL}(q \parallel p)$(前向 KL / 排他性 KL):在 $p$ 大的地方 $q$ 也必须大,否则惩罚很重 → 变分推断使用此方向 → 导致 $q$ 趋于”模式搜索”(mode-seeking),倾向于集中在 $p$ 的一个峰值上
  • $\text{KL}(p \parallel q)$(后向 KL / 包容性 KL):在 $p$ 有概率的地方 $q$ 也必须有 → 期望传播(EP)使用此方向 → 导致 $q$ 趋于”模式覆盖”(mode-covering),倾向于覆盖 $p$ 的所有区域

直观理解:$q$ 是近似分布,$p$ 是真实分布。

  • 前向 KL 关心的是”万一 $p$ 说某件事可能发生,而 $q$ 说不可能”→ 惩罚非常大 → $q$ 会保守地集中在 $p$ 的高概率区域
  • 后向 KL 关心的是”万一 $q$ 说某件事可能发生,但 $p$ 说不可能”→ 惩罚非常大 → $q$ 会试图覆盖 $p$ 的所有概率区域

九、核心习题精选

以下是值得亲手推导的习题(按难度排序):

入门

  • 1.5(证明最小化期望损失等价于选择最大后验类别)
  • 2.15(证明高斯分布的熵公式)
  • 3.6(推导线性基函数模型的 MLE 解)

中等

  • 3.16(推导贝叶斯线性回归的证据函数)
  • 4.15(推导 probit 回归的 EM 算法)
  • 8.14(证明 d-分离的某些性质)
  • 9.11(推导 GMM 的 EM 更新公式)

困难

  • 10.16(推导变分混合模型的变分下界)
  • 11.17(实现 HMC 并对某分布采样)
  • 13.8(推导 HMM 的前向后向算法)

八、为什么 2025 年还要读 PRML?

  1. **概率思维是 ML 的”第一性原理”**:理解了贝叶斯推断,就理解了几乎所有机器学习模型的底层逻辑
  2. 变分推断和 MCMC 正变得比以往任何时候都更重要:生成式 AI 时代的核心数学工具
  3. 从 PRML 到 Bishop 2023 新书的连续统:PRML 提供了理论基础,新书《Deep Learning: Foundations and Concepts》提供了现代视角
  4. 面试和研究都绕不开:无论是 PhD 申请面试还是工业界 ML 研究岗,”PRML 读到哪了”仍然是一个有分量的问题
  5. 避免”调参侠”陷阱:只有坚实的理论功底,才能从现象级工程师变成能设计和改进算法的工程师

九、面试高频问答

Q1: PRML 的核心理念是什么?它与其他 ML 教材最大的区别在哪里?

PRML 的核心理念是一切问题都可以从概率建模的角度来理解。其他教材可能从优化(loss minimization)的角度组织内容,PRML 则始终从概率分布的角度出发——模型的输出是一个概率分布(预测分布),而不是一个点估计。这种视角在处理不确定性、模型比较、先验知识融入等方面有天然优势。特别是整本书用贝叶斯框架串联所有算法,让你看到线性回归、SVM、神经网络、EM、变分推断这些看似无关的方法其实共享同一个概率基础。

Q2: 请用 PRML 的框架解释 EM 算法和变分推断的关系。

EM 和变分推断都是用来处理”有潜变量时如何最大化对数似然”的问题,区别在于 E 步是否能精确计算后验。两者的统一公式是 ELBO(证据下界):

$$\ln p(\mathbf{X} \mid \boldsymbol{\theta}) = \underbrace{\mathbb{E}_q[\ln p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})] + H[q]}_{\text{ELBO } \mathcal{L}(q, \boldsymbol{\theta})} + \underbrace{\text{KL}(q \parallel p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}))}_{\geq 0}$$

EM 算法的 E 步:令 $q(\mathbf{Z}) = p(\mathbf{Z} \mid \mathbf{X}, \boldsymbol{\theta}^{\text{old}})$,使得 KL 项变为 0,ELBO 等于对数似然(紧密性)。但这要求后验可以精确计算。

变分推断:当后验不可精确计算时,我们约束 $q(\mathbf{Z})$ 在一个更简单的函数族(如均值场:$q(\mathbf{Z}) = \prod_i q_i(Z_i)$)中,然后最大化 ELBO——即找”约束族内最接近真实后验的近似”。此时 KL 项 > 0,ELBO 是 $\ln p$ 的下界。

Q3: 贝叶斯线性回归和 Ridge 回归看起来形式很像,它们的本质区别是什么?

Ridge 回归(频率学派):$\min_{\mathbf{w}} |\mathbf{y} - \mathbf{X}\mathbf{w}|^2 + \lambda |\mathbf{w}|^2$,得到一个点估计 $\hat{\mathbf{w}}$。

贝叶斯线性回归(贝叶斯学派):为 $\mathbf{w}$ 赋予高斯先验 $p(\mathbf{w}) = \mathcal{N}(\mathbf{w} \mid 0, \alpha^{-1}\mathbf{I})$,计算后验 $p(\mathbf{w} \mid \mathcal{D}) = \mathcal{N}(\mathbf{w} \mid \mathbf{m}_N, \mathbf{S}_N)$。后验均值 $\mathbf{m}_N$ 的公式等价于 Ridge 的解(当 $\lambda = \alpha / \beta$ 时),但区别在于:

  1. 贝叶斯回归给出的是整个后验分布,而不仅仅是均值。后验协方差 $\mathbf{S}_N$ 量化了参数的不确定性。
  2. 贝叶斯回归的预测也是分布(预测分布),包含了噪声不确定性和参数不确定性:$\sigma_N^2(\mathbf{x}) = \beta^{-1} + \phi(\mathbf{x})^T \mathbf{S}_N \phi(\mathbf{x})$
  3. 贝叶斯框架中,超参数 $\alpha$ 和 $\beta$ 可以通过最大化证据(marginal likelihood)自动选择,而不需要交叉验证

Q4: PRML 中的”证据近似(Evidence Approximation)”是什么?它与交叉验证选超参数有什么不同?

证据近似(也称 Empirical Bayes 或 Type-II MLE)是通过最大化边缘似然(marginal likelihood / model evidence)$p(\mathcal{D} \mid \alpha, \beta)$ 来选择超参数。与交叉验证相比:

  • 证据近似是纯训练集操作(不需要验证集),最大化的是训练数据的边际概率——隐含了 Occam’s Razor 效应(贝叶斯证据自动惩罚过于复杂的模型)
  • 交叉验证需要划分验证集,是一种频率学派的模型选择方法

在实践中,证据近似在贝叶斯线性回归等简单模型中效果很好(甚至能得到解析解),但在复杂模型(如深度网络)中难以直接应用。

Q5: MCMC 和变分推断在什么场景下应该选哪个?

选择依据:

  • 精度要求高 + 计算预算充足:MCMC。MCMC 在极限下是精确的(马尔可夫链收敛到真实后验),适合学术研究、模型开发阶段。
  • 速度要求高 + 可接受近似:变分推断。变分推断通常快 1-3 个数量级,适合大规模数据、在线学习、生产环境。
  • 后验是单峰且近似高斯:两者效果相近,优先选变分推断(快)。
  • 后验是多峰的复杂分布:MCMC 更可靠。均值场变分推断在多峰分布上可能完全遗漏某个模式(mode collapse)。
  • 需要估计模型的证据(marginal likelihood)用于模型比较:变分推断(ELBO 是 $\ln p(\mathcal{D})$ 的下界,可直接用于模型比较)。MCMC 估计 marginal likelihood 通常更麻烦。
文章作者: Leo·Cheung
文章链接: http://tufusi.com/2022/07/10/%E3%80%90%E6%A8%A1%E5%BC%8F%E8%AF%86%E5%88%AB%E5%92%8C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E3%80%91%E5%88%9D%E7%AA%A5AI%E5%9C%A3%E7%BB%8F/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ONE·PIECE
打赏
  • 微信
  • 支付宝

评论