12 改善你的模型的表现（Improving your model performance）

发表于 2026/01/11 更新于 2026/01/11

作者 Leon Yi

6 分钟阅读

🧠 提升监督学习模型性能的系统化方法

——基于偏差-方差分解与正交化思想

一、核心目标：构建高性能监督学习系统

要使一个监督学习算法在实践中表现良好，需同时满足两个条件：

在训练集上拟合良好 → 可避免偏差（Avoidable Bias）低
从训练集到开发/测试集泛化良好 → 方差（Variance）小

这体现了正交化（Orthogonalization） 的思想：将问题拆解为独立可调的子问题，分别用不同“旋钮”（策略）解决。

二、关键概念定义

1. 贝叶斯错误率（Bayes Error, $\epsilon_{\text{Bayes}}$）

理论上可能达到的最低错误率（由数据本身噪声、模糊性等决定）
通常用人类水平错误率（Human-level error）作为其近似：
\[\epsilon_{\text{Bayes}} \approx \epsilon_{\text{human}}\]

2. 可避免偏差（Avoidable Bias）

指模型在训练集上的错误率与贝叶斯错误率之间的差距：
\[\text{Avoidable Bias} = \epsilon_{\text{train}} - \epsilon_{\text{Bayes}}\]
若该值大 → 模型欠拟合，需提升模型容量或优化能力。

3. 方差（Variance）

指模型在开发集（或验证集）上的错误率与训练集错误率之差：
\[\text{Variance} = \epsilon_{\text{dev}} - \epsilon_{\text{train}}\]
若该值大 → 模型过拟合，需增强泛化能力。

✅ 注意：总泛化误差可分解为：
\[\epsilon_{\text{dev}} = \underbrace{\epsilon_{\text{Bayes}}}_{\text{不可减少}} + \underbrace{(\epsilon_{\text{train}} - \epsilon_{\text{Bayes}})}_{\text{可避免偏差}} + \underbrace{(\epsilon_{\text{dev}} - \epsilon_{\text{train}})}_{\text{方差}}\]

三、诊断流程（Diagnosis Pipeline）

按照以下顺序分析模型性能瓶颈：

步骤	问题	判断依据
1️⃣	是否存在高可避免偏差？	$\epsilon_{\text{train}} \gg \epsilon_{\text{Bayes}}$
2️⃣	是否存在高方差？	$\epsilon_{\text{dev}} \gg \epsilon_{\text{train}}$

🔍 建议：先看偏差，再看方差。若偏差已很小，再处理方差。

四、应对策略（正交化“旋钮”）

✅ A. 减少可避免偏差（提升训练集性能）

适用于：$\epsilon_{\text{train}}$ 远高于 $\epsilon_{\text{Bayes}}$

方法	说明
增大模型容量	增加网络层数、隐藏单元数（如更深/更宽的 NN）
延长训练时间	训练更多 epoch，直至收敛
改进优化算法	使用 Momentum、RMSprop、Adam 等加速收敛
调整超参数	学习率、批量大小、初始化方式等
尝试新架构	如 CNN（图像）、RNN/Transformer（序列）等更适合任务的结构
更换激活函数	如 ReLU → Swish、GELU 等

⚠️ 注意：盲目增大模型可能导致方差上升，需后续监控。

✅ B. 减少方差（提升泛化能力）

适用于：$\epsilon_{\text{dev}} \gg \epsilon_{\text{train}}$

方法	说明
收集更多训练数据	最有效但成本高的方法，直接降低过拟合
正则化	L2 权重衰减：$\mathcal{L}{\text{total}} = \mathcal{L}{\text{data}} + \lambda \|\mathbf{w}\|^2_2$
Dropout	在训练时随机“关闭”部分神经元，强制鲁棒性
数据增强（Data Augmentation）	对图像：旋转、裁剪、翻转；对文本：同义词替换等
早停（Early Stopping）	在验证误差开始上升时停止训练
简化模型	减少层数或神经元数量（与增大模型相反）
超参数搜索	寻找最优正则化强度 $\lambda$、dropout rate 等

五、开发集与测试集的设立原则

开发集（Dev Set） ：用于模型选择与调参，应反映目标分布
测试集（Test Set） ：仅用于最终评估，绝不用于任何决策
两者必须独立同分布（i.i.d.） ，且来自实际应用场景
若数据分布偏移（如训练 vs 真实场景），需考虑领域自适应或重新采样

📌 建议比例（大数据场景）：
训练:开发:测试 ≈ 98% : 1% : 1%
小数据（<10k 样本）：可采用 60:20:20 或交叉验证

六、总结：系统化提升性能的 Checklist

设定清晰的开发/测试集，代表真实应用场景
估算贝叶斯错误率（用人水平错误率近似）
计算：
- 可避免偏差 = $\epsilon_{\text{train}} - \epsilon_{\text{Bayes}}$
- 方差 = $\epsilon_{\text{dev}} - \epsilon_{\text{train}}$
若偏差高 → 增大模型、更好优化、新架构
若方差高 → 更多数据、正则化、Dropout、数据增强
反复迭代：每次只改一个“旋钮”，观察效果（正交化精神）

七、进阶思考

偏差-方差权衡（Bias-Variance Tradeoff） 在深度学习中不再绝对：
现代大模型常能同时降低偏差和方差（“双下降”现象）
人类水平错误率并非完美代理：某些任务（如医学影像）人类也可能犯错
端到端学习可能绕过传统模块化设计，但也更难调试

✅ 掌握这套框架，你就具备了比多数团队更系统、更高效的模型调优能力！

机器学习策略

本文由作者按照 CC BY 4.0 进行授权

12 改善你的模型的表现（Improving your model performance）

🧠 提升监督学习模型性能的系统化方法

——基于偏差-方差分解与正交化思想

一、核心目标：构建高性能监督学习系统

二、关键概念定义

1. 贝叶斯错误率（Bayes Error, $\epsilon_{\text{Bayes}}$）

2. 可避免偏差（Avoidable Bias）

3. 方差（Variance）

三、诊断流程（Diagnosis Pipeline）

四、应对策略（正交化“旋钮”）

✅ A. 减少可避免偏差（提升训练集性能）

✅ B. 减少方差（提升泛化能力）

五、开发集与测试集的设立原则

六、总结：系统化提升性能的 Checklist

七、进阶思考

热门标签