01 进行误差分析(Carrying out error analysis)
01 进行误差分析(Carrying out error analysis) 一、什么是误差分析(Error Analysis)? 误差分析 是在开发机器学习系统(尤其是监督学习模型)时,通过人工检查模型在开发集上出错的样本,来判断哪些错误类型最常见、哪些改进方向最具潜力的一种定性+定量分析方法。 ✅ 核心目的:避免盲目投入大量时间优化一个对整体性能提升微乎其微的问题。 ...
01 进行误差分析(Carrying out error analysis) 一、什么是误差分析(Error Analysis)? 误差分析 是在开发机器学习系统(尤其是监督学习模型)时,通过人工检查模型在开发集上出错的样本,来判断哪些错误类型最常见、哪些改进方向最具潜力的一种定性+定量分析方法。 ✅ 核心目的:避免盲目投入大量时间优化一个对整体性能提升微乎其微的问题。 ...
09 可避免偏差(Avoidable Bias) 一、背景:偏差-方差权衡的传统视角 在传统机器学习中,我们将泛化误差(Generalization Error)分解为: [\text{泛化误差} = \text{偏差} + \text{方差} + \text{不可约误差}] 但在深度学习时代,尤其是当模型容量(如大型神经网络)非常大时,训练误差可以被压得极低,此时传统的“高偏差 v...
12 改善你的模型的表现(Improving your model performance) 🧠 提升监督学习模型性能的系统化方法 ——基于偏差-方差分解与正交化思想 一、核心目标:构建高性能监督学习系统 要使一个监督学习算法在实践中表现良好,需同时满足两个条件: 在训练集上拟合良好 → 可避免偏差(Avoidable Bias)低 从训练集到开发/测试集泛化良好 →...
11 超越人类水平表现(Surpassing Human-Level Performance) 一、核心概念:贝叶斯错误率与可避免偏差 在监督学习中,我们通常将模型性能与人类水平表现(Human-Level Performance, HLP) 进行比较。人类水平常被用作对贝叶斯错误率(Bayes Error Rate) 的一个估计: 贝叶斯错误率:在给定输入 $x$ 下,理论上能...
10 理解人类水平表现(Understanding human-level performance) 一、核心概念:人类水平错误率 ≠ 单一数值 在机器学习项目中,“人类水平错误率”(human-level error)常被随意使用,但其精确定义取决于你的目标: 目标1:估计贝叶斯错误率(Bayes error) → 应采用人类能达到的最佳表现(如经验丰富的医生团队)作为代理。...
08 为什么关注“人类水平表现”?(Why Human-Level Performance?) 一、背景与动机 近年来,越来越多的机器学习团队开始将算法性能与人类表现进行比较,主要原因有两点: 深度学习技术的飞速进步 在语音识别、图像分类、自然语言处理等多个任务上,算法性能已逼近甚至超越人类水平。 人类行为是天然的性...
07 何时应改变开发、测试集和评估指标(When to change dev、test sets and metrics) 一、核心思想:评估指标与开发/测试集是“目标”,需随项目演进动态调整 开发集(dev set)和评估指标(metric)共同定义了模型优化的 目标方向。 如果当前指标或数据分布 无法准确反映真实业务需求或用户偏好,就应果断修改它们。 不要固守一个不合适...
06 开发集和测试集的大小(Size of dev and test sets) 🧠 一、背景与动机 在传统机器学习时代,数据集规模较小(如几十到几千个样本),常采用固定比例划分: 70/30 划分:70% 训练,30% 测试 60/20/20 划分:60% 训练,20% 开发(验证),20% 测试 但在现代深度学习中,数据集规模极大(如百万级甚至更大),这种固定比例不再...
05 训练集、开发集、测试集划分(Train、Dev、Test Distributions) 🎯 一、核心思想:开发集与测试集必须来自同一分布 在构建机器学习系统时,开发集(Dev Set)和测试集(Test Set)的设立方式直接影响团队迭代效率。 关键原则: 开发集和测试集应来自相同的分布,并且该分布应代表你未来希望模型表现良好的真实应用场景。 ❌ 错误做法示例 ...
04 满足指标(Satisficing Metrics)与优化指标(Optimizing Metrics) 一、问题背景 在机器学习系统开发中,我们常常需要同时考虑多个性能指标(如准确率、运行时间、内存占用、假阳性率等)。 然而,将所有指标线性组合成一个单一实数评估指标(例如加权求和)往往不自然、不直观,甚至可能误导模型选择。 例如: 准确率(accuracy)越...