01 训练集（Train）、开发集（Dev）和测试集（Test）

发表于 2025/12/26 更新于 2025/12/26

作者 Leon Yi

12 分钟阅读

一、背景：应用机器学习是一个高度迭代的过程

在实际深度学习项目中，你无法在第一次就准确设定所有超参数（如网络层数、每层神经元数量、学习率、激活函数等）。
因此，应用机器学习 = 提出想法 → 编码实现 → 实验评估 → 迭代优化。
迭代效率 决定了你能否快速找到高性能模型。

💡 关键点：快速实验循环 是成功的关键，而合理划分数据集是提升该效率的核心手段。

二、Train / Dev / Test 集的基本作用

数据集	作用	是否用于调参
训练集（Train）	用于训练模型参数（如权重 $W$、偏置 $b$）	✅
开发集（Dev，又称验证集/Validation Set）	用于比较不同模型/超参数配置，选择最佳方案	✅（间接）
测试集（Test）	最终评估模型泛化性能，提供无偏估计	❌（绝不用于调参）

⚠️ 注意：若用测试集指导模型选择，会导致对测试集过拟合，失去其“无偏性”。

三、传统 vs 现代数据划分比例

1. 小数据时代（< 10,000 样本）

常用比例：
- 70% Train / 30% Test（无 Dev）
- 或 60% Train / 20% Dev / 20% Test

2. 大数据时代（≥ 1,000,000 样本）

Dev 和 Test 集只需足够大以可靠评估模型，无需占高比例。
示例：
- 总样本 1,000,000：
  - Train: 98% （980,000）
  - Dev: 1% （10,000）
  - Test: 1% （10,000）
- 更极端情况：99.5% / 0.25% / 0.25%

✅ 原则：
Dev 集大小应足以区分两个相近模型的性能差异；
Test 集大小应足以对最终模型给出统计显著的性能估计。

四、训练集与 Dev/Test 分布不一致的问题（Mismatched Distributions）

场景举例：

训练数据：从网络爬取的高清、专业猫图
Dev/Test 数据：用户手机拍摄的模糊、低分辨率猫图

应对策略：

Dev 与 Test 必须来自同一分布
- 因为 Dev 用于模型选择，若 Dev 与 Test 分布不同，优化 Dev 上的表现可能损害 Test 性能。
训练集可以来自不同分布（甚至合成数据、增强数据等）
- 深度学习需要大量数据，只要 Dev/Test 同分布，训练数据来源可灵活扩展。

📌 黄金法则：
确保 Dev 集和 Test 集同分布，但 Train 集可不同。

五、是否必须要有 Test 集？

如果不需要无偏性能估计（例如：内部产品迭代、无严格上线指标），可以省略 Test 集。
此时仅用 Train + Dev：
- 在 Train 上训练
- 在 Dev 上选择模型并迭代
但注意：此时 Dev 集已被“污染”，不能作为最终性能报告依据。

⚠️ 常见误区：
很多团队称其 Dev 集为 “Test Set”，但实际上是在用它做模型选择 → 这是术语误用，本质上仍是 Dev 集。

六、实践建议总结

问题	建议
数据量小（< 10k）	使用 60/20/20 或 70/30 划分
数据量大（> 100k）	Dev/Test 可小至 0.1%~1%，只要统计可靠
Dev/Test 分布	必须一致
Train 分布	可不同，鼓励使用更多样化/合成数据
是否需要 Test 集	若需无偏评估 → 必须有；否则可省略
命名规范	区分 “Dev”（用于调参）和 “Test”（仅用于最终评估）

七、公式与符号（KaTeX 兼容）

　　虽然本节未涉及复杂数学公式，但可形式化表达数据划分：

　　设总数据集为 $\mathcal{D}$，则：

\[\mathcal{D} = \mathcal{D}_{\text{train}} \cup \mathcal{D}_{\text{dev}} \cup \mathcal{D}_{\text{test}}, \quad \text{且} \quad \mathcal{D}_{\text{train}} \cap \mathcal{D}_{\text{dev}} \cap \mathcal{D}_{\text{test}} = \varnothing\]

　　目标是最小化 Test 集上的泛化误差：

\[\min_{\theta} \mathbb{E}_{(x,y) \sim \mathcal{D}_{\text{test}}} \left[ \mathcal{L}(f_\theta(x), y) \right]\]

　　其中 $\theta$ 为模型参数，$\mathcal{L}$ 为损失函数。

　　但实际中，我们通过 Dev 集近似优化：

\[\theta^* = \arg\min_{\theta \in \Theta} \frac{1}{|\mathcal{D}_{\text{dev}}|} \sum_{(x,y) \in \mathcal{D}_{\text{dev}}} \mathcal{L}(f_\theta(x), y)\]

　　因此，$\mathcal{D}{\text{dev}}$** **与** **$\mathcal{D}{\text{test}}$ 同分布 是该近似有效的前提。

八、后续内容预告

　　合理划分数据集后，下一步是：

分析模型的 偏差（Bias）与方差（Variance）
判断问题是 欠拟合 还是 过拟合
从而决定采取 增加模型容量、正则化、获取更多数据 等策略

　　✅ 学习提示：在实际项目中，花时间精心设计 Dev/Test 集，往往比盲目调参更有效！

[!NOTE] ✏️ 名词解释
无偏估计
如果你重复很多次实验（比如换不同的测试集），你得到的平均结果，正好等于真实值。 就是说你评估的模型性能是能反应真实情况的，不是有偏向的。
🔑 回到机器学习
Test 集的作用：提供一个从未参与过任何决策的数据集，用来做最后一次、公正的评分。
只要你不拿它调模型、选超参数、改结构，它就是一个无偏的“裁判” 。
一旦你用它“指导训练”，它就变成了“自己给自己打分”，结果自然偏高（有偏）。
方差偏差均衡
🎯 一句话总结
偏差（Bias） 是模型“学得够不够准”，
方差（Variance） 是模型“学得稳不稳”。
好的模型要在 “准” 和 “稳” 之间取得平衡。
🔍 一、先分别理解：什么是偏差？什么是方差？
1️⃣ 偏差（Bias）——“系统性错误”
高偏差 = 模型太简单，学不到数据规律 → 欠拟合（Underfitting）
就像用直线去拟合一个弯曲的曲线，怎么调都贴不上去。
✅ 例子：
你想预测房价，但只用“房子面积”这一个特征，忽略地段、房龄等。
无论训练多少次，模型都系统性低估或高估真实价格 → 高偏差。
📌 高偏差 = 模型能力不足，对问题本质理解错误
2️⃣ 方差（Variance）——“对数据太敏感”
高方差 = 模型太复杂，死记硬背训练数据 → 过拟合（Overfitting）
它在训练集上表现极好，但在新数据上表现很差。
✅ 例子：
你用一个超高阶多项式去拟合几个房价点，曲线弯来弯去，完美穿过每个点。
但换一批数据，它就“疯了”——预测完全不合理 → 高方差
📌 高方差 = 模型把噪声当规律，泛化能力差
🎯 二、用“打靶”比喻（经典图示）
想象你射击多次：
情况靶子分布含义
高偏差 + 低方差 所有弹孔集中在远离靶心的一个小区域模型稳定但不准（总是犯同样的错）
低偏差 + 高方差 弹孔围绕靶心散开很广 模型有时准有时不准，不稳定
高偏差 + 高方差 弹孔又偏又散模型又不准又不稳定（最差）
✅ 低偏差 + 低方差 弹孔密集在靶心 理想模型：既准又稳
⚖️ 三、为什么叫“权衡”（Tradeoff）？
因为：
降低偏差 → 通常要让模型更复杂（比如加深神经网络、加更多特征）
→ 但可能增加方差（更容易过拟合）
降低方差 → 通常要简化模型或加正则化（如 Dropout、L2 正则）
→ 但可能增加偏差（模型变“笨”了）
💡 就像做饭：
火太小（高偏差）→ 菜不熟
火太大（高方差）→ 外焦里生
要找到刚好合适的火候！
🧠 四、在机器学习中如何判断？
你可以通过比较 训练误差 和 开发/测试误差 来诊断：
情况训练误差 Dev/Test 误差问题解法
高偏差 高高（接近训练误差）欠拟合换更大模型、加特征、减少正则化
高方差 很低显著更高过拟合更多数据、正则化、简化模型
理想状态 低略高于训练误差（差距小）平衡保持或微调
📌 注意：在深度学习时代，大数据 + 大模型 可以同时降低偏差和方差（打破传统 tradeoff），但前提是数据足够多。
✅ 五、总结（记住这三句话）
偏差高 = 模型太简单，学不会 → 欠拟合
方差高 = 模型太敏感，记太多 → 过拟合
目标：在两者之间找平衡，让模型既聪明又稳重

情况	靶子分布	含义
高偏差 + 低方差	所有弹孔集中在远离靶心的一个小区域	模型稳定但不准（总是犯同样的错）
低偏差 + 高方差	弹孔围绕靶心散开很广	模型有时准有时不准，不稳定
高偏差 + 高方差	弹孔又偏又散	模型又不准又不稳定（最差）
✅ 低偏差 + 低方差	弹孔密集在靶心	理想模型：既准又稳

情况	训练误差	Dev/Test 误差	问题	解法
高偏差	高	高（接近训练误差）	欠拟合	换更大模型、加特征、减少正则化
高方差	很低	显著更高	过拟合	更多数据、正则化、简化模型
理想状态	低	略高于训练误差（差距小）	平衡	保持或微调

改进深度神经网络

本文由作者按照 CC BY 4.0 进行授权

一、背景：应用机器学习是一个高度迭代的过程

二、Train / Dev / Test 集的基本作用

三、传统 vs 现代数据划分比例

1. 小数据时代（< 10,000 样本）

2. 大数据时代（≥ 1,000,000 样本）

四、训练集与 Dev/Test 分布不一致的问题（Mismatched Distributions）

场景举例：

应对策略：

五、是否必须要有 Test 集？

六、实践建议总结

七、公式与符号（KaTeX 兼容）

八、后续内容预告

无偏估计

方差偏差均衡

🎯 一句话总结

🔍 一、先分别理解：什么是偏差？什么是方差？

1️⃣ 偏差（Bias）——“系统性错误”

2️⃣ 方差（Variance）——“对数据太敏感”

🎯 二、用“打靶”比喻（经典图示）

⚖️ 三、为什么叫“权衡”（Tradeoff）？

🧠 四、在机器学习中如何判断？

✅ 五、总结（记住这三句话）

热门标签