机器学习与模式识别 第八章 MAP与偏方差 考点压缩

发布时间:2026/7/4 20:14:52
机器学习与模式识别 第八章 MAP与偏方差 考点压缩 第八章Regression (Cont.) and Bias-Variance Trade-off — 知识点笔记综合来源Lecture 08 PDF55页、课堂笔记CSDN占位图8.1 先验信念与MAP ⭐⭐MLE的问题MLE仅用数据→小数据/噪声多→可能拟合极端权重MLE没有机制编码权重应该较小/合理MAP最大后验估计贝叶斯法则p(w∣t)∝p(t∣w)×p(w)p(\mathbf{w}|\mathbf{t}) \propto p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(w∣t)∝p(t∣w)×p(w)w^MAParg⁡max⁡wp(w∣t)arg⁡max⁡w[p(t∣w)×p(w)]\hat{\mathbf{w}}_{MAP} \arg\max_{\mathbf{w}} p(\mathbf{w}|\mathbf{t}) \arg\max_{\mathbf{w}} [p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})]w^MAP​argwmax​p(w∣t)argwmax​[p(t∣w)×p(w)]取负对数→最大化→最小化w^MAParg⁡min⁡w[−ln⁡p(t∣w)−ln⁡p(w)]\hat{\mathbf{w}}_{MAP} \arg\min_{\mathbf{w}} [-\ln p(\mathbf{t}|\mathbf{w}) - \ln p(\mathbf{w})]w^MAP​argwmin​[−lnp(t∣w)−lnp(w)]高斯先验 → Ridge ⭐⭐⭐先验假设wj∼N(0,τ2)w_j \sim \mathcal{N}(0, \tau^2)wj​∼N(0,τ2)权重小、中心在0p(w)∏j12πτ2e−wj2/2τ2p(\mathbf{w}) \prod_j \frac{1}{\sqrt{2\pi\tau^2}} e^{-w_j^2/2\tau^2}p(w)j∏​2πτ2​1​e−wj2​/2τ2MAP目标w^MAParg⁡min⁡w[12σ2∑n(tn−wTϕ(xn))212τ2∥w∥22]\hat{\mathbf{w}}_{MAP} \arg\min_{\mathbf{w}} \left[\frac{1}{2\sigma^2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 \frac{1}{2\tau^2}\|\mathbf{w}\|_2^2\right]w^MAP​argwmin​[2σ21​n∑​(tn​−wTϕ(xn​))22τ21​∥w∥22​]乘以σ2\sigma^2σ2arg⁡min⁡w[12∑n(tn−wTϕ(xn))2σ22τ2∥w∥22] \arg\min_{\mathbf{w}} \left[\frac{1}{2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 \frac{\sigma^2}{2\tau^2}\|\mathbf{w}\|_2^2\right]argwmin​[21​n∑​(tn​−wTϕ(xn​))22τ2σ2​∥w∥22​]λσ2τ2\lambda \frac{\sigma^2}{\tau^2}λτ2σ2​核心结论MAP高斯先验 Ridge回归L2正则化 假设权重服从高斯先验分布λσ2/τ2\lambda \sigma^2/\tau^2λσ2/τ2数据噪声大→λ\lambdaλ大先验强(τ2\tau^2τ2小)→λ\lambdaλ大MLE vs MAP 类比频率学派(MLE)贝叶斯学派(MAP)使用仅数据数据 先验信念硬币例子MLE1.0(仅HH)后验均值0.58(结合先验5/10)回归最小二乘Ridge回归8.2 偏差-方差分解 ⭐⭐⭐学习的基本挑战拟合数据解释已观测到的泛化到世界预测未来、解释未观测到的三个误差来源来源定义可控噪声Noise数据固有随机波动❌ 不可控通常偏差Bias期望预测值与真实值之间的偏差✅ 模型选择方差Variance不同训练集下预测值的变异性✅ 模型复杂度推导 ⭐假设th(x)ϵt h(\mathbf{x}) \epsilonth(x)ϵE[ϵ]0\mathbb{E}[\epsilon]0E[ϵ]0var[ϵ]σ2\text{var}[\epsilon]\sigma^2var[ϵ]σ2E[(t−fw(x))2]E[(t−h(x))2]⏟Noise(h(x)−E[fw(x)])2⏟Bias2E[(E[fw(x)]−fw(x))2]⏟Variance\mathbb{E}[(t - f_{\mathbf{w}}(\mathbf{x}))^2] \underbrace{\mathbb{E}[(t - h(\mathbf{x}))^2]}_{\text{Noise}} \underbrace{(h(\mathbf{x}) - \mathbb{E}[f_{\mathbf{w}}(\mathbf{x})])^2}_{\text{Bias}^2} \underbrace{\mathbb{E}[(\mathbb{E}[f_{\mathbf{w}}(\mathbf{x})] - f_{\mathbf{w}}(\mathbf{x}))^2]}_{\text{Variance}}E[(t−fw​(x))2]NoiseE[(t−h(x))2]​​Bias2(h(x)−E[fw​(x)])2​​VarianceE[(E[fw​(x)]−fw​(x))2]​​期望预测误差 噪声 偏差² 方差偏差-方差权衡图误差 ↑ | Total Error | / \ | / \_____ Variance | / Bias² \ |/______________________\____ | Model Complexity → 简单 复杂如何控制模型复杂度方法效果特征数量减少→更简单→更高偏差更低方差特征选择选不同基函数→不同偏置正则化λ\lambdaλλ\lambdaλ↑→更简单→更高偏差更低方差λ\lambdaλ的偏差-方差效应λ\lambdaλ小→模型复杂→低偏差高方差过拟合λ\lambdaλ大→模型简单→高偏差低方差欠拟合最优λ\lambdaλ通过验证集确定8.3 双重下降Double Descent预览来自CSDN笔记传统U型曲线模型复杂度↑→测试误差先降后升双重下降过参数化后→测试误差再次下降大模型继续训练→可能获得更低测试误差实操建议大模型不一定需要早停笔记中的图片索引序号图片内容描述来源位置图1硬币例子先验→后验更新Lecture 08 第4页图2偏差-方差分解推导过程Lecture 08 第20-36页图3偏差-方差权衡经典U型图Lecture 08 第37页图4λ\lambdaλ对偏差-方差的影响Lecture 08 第39页图5sin(2πx)拟合示例Lecture 08 第40页笔记整理时间2026年6月28日