05 为什么正则化能减少过拟合？

发表于 2025/12/27 更新于 2025/12/26

作者 Leon Yi

5 分钟阅读

05 为什么正则化能减少过拟合？

🧠 一、核心问题：为什么正则化能减少过拟合？

　　原始损失函数（无正则化）：

\[J(W, b) = \frac{1}{m} \sum_{i=1}^{m} \mathcal{L}(\hat{y}^{(i)}, y^{(i)})\]

　　加入 L2 正则化后的总成本函数：

\[J_{\text{reg}}(W, b) = \frac{1}{m} \sum_{i=1}^{m} \mathcal{L}(\hat{y}^{(i)}, y^{(i)}) + \frac{\lambda}{2m} \sum_{l=1}^{L} \|W^{[l]}\|_F^2\]

　　其中：

✅ 注意：通常不对偏置项 $b$ 正则化，因为其数量远少于权重，影响小。

💡 类比：极端情况下，若所有 $W \approx 0$，网络退化为近似线性模型（如逻辑回归），无法拟合复杂非线性边界。

　　假设使用 tanh 激活函数：

　　因此：

📌 关键结论：L2 正则化通过抑制权重大小，限制了网络的非线性表达能力，从而防止过拟合。

  
# 伪代码示例
cost = compute_loss(y_pred, y_true) + (lambda / (2*m)) * sum_of_squared_weights

项目	内容
目标	减少过拟合（高方差），提升泛化
方法	L2 正则化（权重衰减）
数学形式	$J_{\text{reg}} = J + \frac{\lambda}{2m} \sum \|W\|_F^2$
核心机制	抑制权重过大 → 降低模型复杂度
两种直觉	1. 等效简化网络；2. 使激活函数线性化
实现注意	调试时必须用含正则项的完整成本函数

　　通过本节学习，你应理解：正则化不是“魔法”，而是通过控制模型容量（capacity）来平衡偏差与方差。合理选择 $\lambda$，可在“欠拟合”与“过拟合”之间找到最佳平衡点。

本文由作者按照 CC BY 4.0 进行授权