06 处理数据不匹配问题（Addressing Data Mismatch）

06 处理数据不匹配问题（Addressing Data Mismatch）一、问题背景：训练集与开发/测试集分布不一致在实际机器学习项目中，常常出现：训练集来自一个分布（例如安静环境下的语音）开发集 / 测试集来自另一个更真实但不同的分布（例如车内有噪声的语音）此时即使模型在训练集上表现很好，在开发集上性能却显著下降，这称为数据不匹配问题（Data Mi...

2026/01/18 机器学习策略

05 数据分布不匹配时的偏差与方差分析（Bias and Variance with Mismatched Data Distributions）

05 数据分布不匹配时的偏差与方差分析（Bias and Variance with Mismatched Data Distributions）一、背景问题：训练集与开发/测试集分布不同在传统机器学习中，我们假设：训练集、开发集（Dev）、测试集（Test）来自同一分布。此时可通过比较训练误差 $E_{\text{train}}$ 与开发误差 $E_{\text...

2026/01/18 机器学习策略

04 使用来自不同分布的数据进行训练和测试（Training and testing on different distributions）

04 使用来自不同分布的数据进行训练和测试（Training and testing on different distributions）一、核心问题：训练集与开发/测试集分布不一致在深度学习实践中，常常面临以下困境：目标分布（Target Distribution）：模型最终需要部署的真实场景数据（如用户手机上传的模糊照片、车载语音指令）。辅助数据（Auxili...

2026/01/18 机器学习策略

03 快速搭建你的第一个系统，并进行迭代

03 快速搭建你的第一个系统，并进行迭代 1. 为什么不要一开始就追求完美？在开发一个全新的机器学习应用时（如语音识别、医疗图像分析等），存在大量可能的优化方向（例如抗噪、口音鲁棒性、远场识别、儿童语音处理等）。面对这些选择，初学者或新项目团队很容易陷入“分析瘫痪”（analysis paralysis）——花太多时间思考“最佳起点”，却迟迟不行动。 ✅ 关键洞见：对于新问题...

2026/01/18 机器学习策略

02 清除标注错误的数据（Cleaning up Incorrectly Labeled Data）

02 清除标注错误的数据（Cleaning up Incorrectly Labeled Data）一、问题背景在监督学习中，训练数据由输入 $x^{(i)}$ 和标签 $y^{(i)}$ 构成。但在实际项目中，标签可能出错（即人类标注错误），例如：将狗误标为猫（$y=1$ 应为 $y=0$）；或将非猫图像（如猫的图画）误标为猫。这类样本称为 “标记错误的样本...

2026/01/18 机器学习策略

01 进行误差分析（Carrying out error analysis）

01 进行误差分析（Carrying out error analysis）一、什么是误差分析（Error Analysis）？误差分析是在开发机器学习系统（尤其是监督学习模型）时，通过人工检查模型在开发集上出错的样本，来判断哪些错误类型最常见、哪些改进方向最具潜力的一种定性+定量分析方法。 ✅ 核心目的：避免盲目投入大量时间优化一个对整体性能提升微乎其微的问题。 ...

2026/01/18 机器学习策略

09 可避免偏差（Avoidable Bias）

09 可避免偏差（Avoidable Bias）一、背景：偏差-方差权衡的传统视角在传统机器学习中，我们将泛化误差（Generalization Error）分解为： [\text{泛化误差} = \text{偏差} + \text{方差} + \text{不可约误差}] 但在深度学习时代，尤其是当模型容量（如大型神经网络）非常大时，训练误差可以被压得极低，此时传统的“高偏差 v...

2026/01/11 机器学习策略

12 改善你的模型的表现（Improving your model performance）

12 改善你的模型的表现（Improving your model performance） 🧠 提升监督学习模型性能的系统化方法 ——基于偏差-方差分解与正交化思想一、核心目标：构建高性能监督学习系统要使一个监督学习算法在实践中表现良好，需同时满足两个条件：在训练集上拟合良好 → 可避免偏差（Avoidable Bias）低从训练集到开发/测试集泛化良好 →...

2026/01/11 机器学习策略

11 超越人类水平表现（Surpassing Human-Level Performance）

11 超越人类水平表现（Surpassing Human-Level Performance）一、核心概念：贝叶斯错误率与可避免偏差在监督学习中，我们通常将模型性能与人类水平表现（Human-Level Performance, HLP）进行比较。人类水平常被用作对贝叶斯错误率（Bayes Error Rate）的一个估计：贝叶斯错误率：在给定输入 $x$ 下，理论上能...

2026/01/11 机器学习策略

10 理解人类水平表现（Understanding human-level performance）

10 理解人类水平表现（Understanding human-level performance）一、核心概念：人类水平错误率 ≠ 单一数值在机器学习项目中，“人类水平错误率”（human-level error）常被随意使用，但其精确定义取决于你的目标：目标1：估计贝叶斯错误率（Bayes error） → 应采用人类能达到的最佳表现（如经验丰富的医生团队）作为代理。...

2026/01/11 机器学习策略

06 处理数据不匹配问题（Addressing Data Mismatch）

05 数据分布不匹配时的偏差与方差分析（Bias and Variance with Mismatched Data Distributions）

04 使用来自不同分布的数据进行训练和测试（Training and testing on different distributions）

03 快速搭建你的第一个系统，并进行迭代

02 清除标注错误的数据（Cleaning up Incorrectly Labeled Data）

01 进行误差分析（Carrying out error analysis）

09 可避免偏差（Avoidable Bias）

12 改善你的模型的表现（Improving your model performance）

11 超越人类水平表现（Surpassing Human-Level Performance）

10 理解人类水平表现（Understanding human-level performance）

热门标签