最小二乘法

发布时间:2026/7/1 17:51:30
最小二乘法 最小二乘法Least Squares Method是统计学和线性回归中最经典、最基础的算法。如果说 “最大似然估计MLE”是一种哲学思想由果推因那么“最小二乘法”就是这种思想在正态分布下最完美、最实用的数学落地工具。本文博主继续用通俗的语言和生活中的例子来拆解。一、 通俗解释寻找“最完美”的平衡点通俗解释最小二乘法的核心目标只有一个画一条最完美的直线让这条直线离所有的数据点“总距离”最近。生活中的例子想象你在玩飞镖靶心是“真实数据”你扔出的飞镖是“预测直线”。如果直线画得太偏飞镖数据点到直线的距离就会很远。最小二乘法就是不断调整直线的角度和位置直到所有飞镖到直线的距离的“平方总和”达到最小。这时候这条直线就是最完美的。二、 为什么非要“平方”核心精髓在计算误差时最小二乘法要求把每个数据点到直线的距离平方后再相加。为什么不能直接算距离消除负号防止误差互相抵消数据点有的在直线上方误差是 5有的在直线下方误差是 -5。如果不平方直接相加5 和 -5 就抵消变成 0 了。模型会误以为自己预测得很准但实际上误差极大。平方之后正负号全变成了正数。惩罚“大错”让模型更稳健误差是 2平方是 4误差是 10平方是 100。平方操作让模型对“偏离特别远的点”极其敏感。为了不让总误差飙升模型会拼命把直线往那些“大错点”的方向拉一拉从而找到一个全局最平衡的位置。三、 最小二乘法与最大似然估计MLE的绝妙闭环还记得博主前面讲过的 MLE 吗在这里它们完美地握手了。MLE 的视角假设数据点的误差服从正态分布寻找让当前数据发生概率最大的那条直线。最小二乘法的视角寻找让所有数据点到直线的“误差平方和”最小的那条直线。 核心洞察在数学上可以严格证明当且仅当误差服从正态分布时MLE 的推导结果在数学形式上完全等价于最小二乘法。也就是说最小二乘法其实就是 MLE 在正态分布假设下的“特例”。这也解释了为什么我们在用最小二乘法时总是要假设数据符合正态分布。四、 最小二乘法的优缺点✅ 优点极其简单、优雅不需要复杂的迭代像 EM 算法那样只要数据量不是大到离谱直接套用一个矩阵公式θ(XTX)−1XTy\theta (X^TX)^{-1}X^Tyθ(XTX)−1XTy一秒钟就能算出最佳直线的参数。理论极其扎实它是无偏估计且在正态分布下具有最优的统计性质。❌ 缺点与 MSE 类似极度害怕异常值Outliers因为要“平方”如果一个数据点偏离了 100 倍它的误差平方就会放大 10000 倍这会把整条直线严重带偏。只能拟合线性关系标准的最小二乘法只能画直线。如果数据本身是弯曲的它就不管用了除非引入多项式特征进行非线性扩展。五、 一句话总结最小二乘法是一种通过“最小化误差平方和”来寻找最佳拟合直线的数学工具。它计算简单、理论完美是最大似然估计在正态分布下的完美化身也是整个线性回归算法的基石。