机器学习与模式识别第八章 MAP与偏方差考点压缩

发布时间：2026/7/4 20:14:52

第八章Regression (Cont.) and Bias-Variance Trade-off — 知识点笔记综合来源Lecture 08 PDF55页、课堂笔记CSDN占位图8.1 先验信念与MAP ⭐⭐MLE的问题MLE仅用数据→小数据/噪声多→可能拟合极端权重MLE没有机制编码权重应该较小/合理MAP最大后验估计贝叶斯法则p(w∣t)∝p(t∣w)×p(w)p(\mathbf{w}|\mathbf{t}) \propto p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(w∣t)∝p(t∣w)×p(w)w^MAParg⁡max⁡wp(w∣t)arg⁡max⁡w[p(t∣w)×p(w)]\hat{\mathbf{w}}_{MAP} \arg\max_{\mathbf{w}} p(\mathbf{w}|\mathbf{t}) \arg\max_{\mathbf{w}} [p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})]w^MAPargwmaxp(w∣t)argwmax[p(t∣w)×p(w)]取负对数→最大化→最小化w^MAParg⁡min⁡w[−ln⁡p(t∣w)−ln⁡p(w)]\hat{\mathbf{w}}_{MAP} \arg\min_{\mathbf{w}} [-\ln p(\mathbf{t}|\mathbf{w}) - \ln p(\mathbf{w})]w^MAPargwmin[−lnp(t∣w)−lnp(w)]高斯先验 → Ridge ⭐⭐⭐先验假设wj∼N(0,τ2)w_j \sim \mathcal{N}(0, \tau^2)wj∼N(0,τ2)权重小、中心在0p(w)∏j12πτ2e−wj2/2τ2p(\mathbf{w}) \prod_j \frac{1}{\sqrt{2\pi\tau^2}} e^{-w_j^2/2\tau^2}p(w)j∏2πτ21e−wj2/2τ2MAP目标w^MAParg⁡min⁡w[12σ2∑n(tn−wTϕ(xn))212τ2∥w∥22]\hat{\mathbf{w}}_{MAP} \arg\min_{\mathbf{w}} \left[\frac{1}{2\sigma^2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 \frac{1}{2\tau^2}\|\mathbf{w}\|_2^2\right]w^MAPargwmin[2σ21n∑(tn−wTϕ(xn))22τ21∥w∥22]乘以σ2\sigma^2σ2arg⁡min⁡w[12∑n(tn−wTϕ(xn))2σ22τ2∥w∥22] \arg\min_{\mathbf{w}} \left[\frac{1}{2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 \frac{\sigma^2}{2\tau^2}\|\mathbf{w}\|_2^2\right]argwmin[21n∑(tn−wTϕ(xn))22τ2σ2∥w∥22]λσ2τ2\lambda \frac{\sigma^2}{\tau^2}λτ2σ2核心结论MAP高斯先验 Ridge回归L2正则化假设权重服从高斯先验分布λσ2/τ2\lambda \sigma^2/\tau^2λσ2/τ2数据噪声大→λ\lambdaλ大先验强(τ2\tau^2τ2小)→λ\lambdaλ大MLE vs MAP 类比频率学派(MLE)贝叶斯学派(MAP)使用仅数据数据先验信念硬币例子MLE1.0(仅HH)后验均值0.58(结合先验5/10)回归最小二乘Ridge回归8.2 偏差-方差分解 ⭐⭐⭐学习的基本挑战拟合数据解释已观测到的泛化到世界预测未来、解释未观测到的三个误差来源来源定义可控噪声Noise数据固有随机波动❌ 不可控通常偏差Bias期望预测值与真实值之间的偏差✅ 模型选择方差Variance不同训练集下预测值的变异性✅ 模型复杂度推导 ⭐假设th(x)ϵt h(\mathbf{x}) \epsilonth(x)ϵE[ϵ]0\mathbb{E}[\epsilon]0E[ϵ]0var[ϵ]σ2\text{var}[\epsilon]\sigma^2var[ϵ]σ2E[(t−fw(x))2]E[(t−h(x))2]⏟Noise(h(x)−E[fw(x)])2⏟Bias2E[(E[fw(x)]−fw(x))2]⏟Variance\mathbb{E}[(t - f_{\mathbf{w}}(\mathbf{x}))^2] \underbrace{\mathbb{E}[(t - h(\mathbf{x}))^2]}_{\text{Noise}} \underbrace{(h(\mathbf{x}) - \mathbb{E}[f_{\mathbf{w}}(\mathbf{x})])^2}_{\text{Bias}^2} \underbrace{\mathbb{E}[(\mathbb{E}[f_{\mathbf{w}}(\mathbf{x})] - f_{\mathbf{w}}(\mathbf{x}))^2]}_{\text{Variance}}E[(t−fw(x))2]NoiseE[(t−h(x))2]Bias2(h(x)−E[fw(x)])2VarianceE[(E[fw(x)]−fw(x))2]期望预测误差噪声偏差² 方差偏差-方差权衡图误差 ↑ | Total Error | / \ | / \_____ Variance | / Bias² \ |/______________________\____ | Model Complexity → 简单复杂如何控制模型复杂度方法效果特征数量减少→更简单→更高偏差更低方差特征选择选不同基函数→不同偏置正则化λ\lambdaλλ\lambdaλ↑→更简单→更高偏差更低方差λ\lambdaλ的偏差-方差效应λ\lambdaλ小→模型复杂→低偏差高方差过拟合λ\lambdaλ大→模型简单→高偏差低方差欠拟合最优λ\lambdaλ通过验证集确定8.3 双重下降Double Descent预览来自CSDN笔记传统U型曲线模型复杂度↑→测试误差先降后升双重下降过参数化后→测试误差再次下降大模型继续训练→可能获得更低测试误差实操建议大模型不一定需要早停笔记中的图片索引序号图片内容描述来源位置图1硬币例子先验→后验更新Lecture 08 第4页图2偏差-方差分解推导过程Lecture 08 第20-36页图3偏差-方差权衡经典U型图Lecture 08 第37页图4λ\lambdaλ对偏差-方差的影响Lecture 08 第39页图5sin(2πx)拟合示例Lecture 08 第40页笔记整理时间2026年6月28日

相关新闻

Ventoy启动界面个性化：3步打造专属启动盘视觉盛宴

ax-M3 开源实测：部署、推理与基准测试全记录

Transformers.js：重新定义浏览器端AI推理的架构范式

Python大模型开发：多模态模型图像生成API封装与参数调优实战

规划我的CV投稿路线图：从顶会到潜力期刊的实战指南

vue 使用 vue-wechat-title 动态设置title

怎么把LabVIEW项目做好---选设备

ModbusTool终极指南：5分钟掌握工业通信调试利器

高级PDF智能解析架构解析：实现复杂文档处理的模块化设计

Axure RP中文界面终极解决方案：3分钟告别英文困扰

STM32F745VG与MC6470 IMU的高性能姿态控制系统设计

本地部署SAM Audio音频语义分割模型完整指南

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

别再死记硬背了！用‘分界线’思维彻底搞懂C++ set的lower_bound和upper_bound

TwitchDropsMiner：无需观看直播，自动化获取Twitch掉落奖励的终极指南

从提示工程到上下文工程：2026年AI开发者的核心技能转换