01 进行误差分析（Carrying out error analysis）

01 进行误差分析（Carrying out error analysis）一、什么是误差分析（Error Analysis）？误差分析是在开发机器学习系统（尤其是监督学习模型）时，通过人工检查模型在开发集上出错的样本，来判断哪些错误类型最常见、哪些改进方向最具潜力的一种定性+定量分析方法。 ✅ 核心目的：避免盲目投入大量时间优化一个对整体性能提升微乎其微的问题。 ...

2026/01/18 机器学习策略

09 可避免偏差（Avoidable Bias）

09 可避免偏差（Avoidable Bias）一、背景：偏差-方差权衡的传统视角在传统机器学习中，我们将泛化误差（Generalization Error）分解为： [\text{泛化误差} = \text{偏差} + \text{方差} + \text{不可约误差}] 但在深度学习时代，尤其是当模型容量（如大型神经网络）非常大时，训练误差可以被压得极低，此时传统的“高偏差 v...

2026/01/11 机器学习策略

12 改善你的模型的表现（Improving your model performance）

12 改善你的模型的表现（Improving your model performance） 🧠 提升监督学习模型性能的系统化方法 ——基于偏差-方差分解与正交化思想一、核心目标：构建高性能监督学习系统要使一个监督学习算法在实践中表现良好，需同时满足两个条件：在训练集上拟合良好 → 可避免偏差（Avoidable Bias）低从训练集到开发/测试集泛化良好 →...

2026/01/11 机器学习策略

11 超越人类水平表现（Surpassing Human-Level Performance）

11 超越人类水平表现（Surpassing Human-Level Performance）一、核心概念：贝叶斯错误率与可避免偏差在监督学习中，我们通常将模型性能与人类水平表现（Human-Level Performance, HLP）进行比较。人类水平常被用作对贝叶斯错误率（Bayes Error Rate）的一个估计：贝叶斯错误率：在给定输入 $x$ 下，理论上能...

2026/01/11 机器学习策略

10 理解人类水平表现（Understanding human-level performance）

10 理解人类水平表现（Understanding human-level performance）一、核心概念：人类水平错误率 ≠ 单一数值在机器学习项目中，“人类水平错误率”（human-level error）常被随意使用，但其精确定义取决于你的目标：目标1：估计贝叶斯错误率（Bayes error） → 应采用人类能达到的最佳表现（如经验丰富的医生团队）作为代理。...

2026/01/11 机器学习策略

08 为什么关注“人类水平表现”？（Why Human-Level Performance?）

08 为什么关注“人类水平表现”？（Why Human-Level Performance?）一、背景与动机近年来，越来越多的机器学习团队开始将算法性能与人类表现进行比较，主要原因有两点：深度学习技术的飞速进步在语音识别、图像分类、自然语言处理等多个任务上，算法性能已逼近甚至超越人类水平。人类行为是天然的性...

2026/01/11 机器学习策略

07 何时应改变开发、测试集和评估指标（When to change dev、test sets and metrics）

07 何时应改变开发、测试集和评估指标（When to change dev、test sets and metrics）一、核心思想：评估指标与开发/测试集是“目标”，需随项目演进动态调整开发集（dev set）和评估指标（metric）共同定义了模型优化的目标方向。如果当前指标或数据分布无法准确反映真实业务需求或用户偏好，就应果断修改它们。不要固守一个不合适...

2026/01/11 机器学习策略

06 开发集和测试集的大小（Size of dev and test sets）

06 开发集和测试集的大小（Size of dev and test sets） 🧠 一、背景与动机在传统机器学习时代，数据集规模较小（如几十到几千个样本），常采用固定比例划分： 70/30 划分：70% 训练，30% 测试 60/20/20 划分：60% 训练，20% 开发（验证），20% 测试但在现代深度学习中，数据集规模极大（如百万级甚至更大），这种固定比例不再...

2026/01/11 机器学习策略

05 训练集、开发集、测试集划分（Train、Dev、Test Distributions）

05 训练集、开发集、测试集划分（Train、Dev、Test Distributions） 🎯 一、核心思想：开发集与测试集必须来自同一分布在构建机器学习系统时，开发集（Dev Set）和测试集（Test Set）的设立方式直接影响团队迭代效率。关键原则：开发集和测试集应来自相同的分布，并且该分布应代表你未来希望模型表现良好的真实应用场景。 ❌ 错误做法示例 ...

2026/01/11 机器学习策略

04 满足指标（Satisficing Metrics）与优化指标（Optimizing Metrics）

04 满足指标（Satisficing Metrics）与优化指标（Optimizing Metrics）一、问题背景在机器学习系统开发中，我们常常需要同时考虑多个性能指标（如准确率、运行时间、内存占用、假阳性率等）。然而，将所有指标线性组合成一个单一实数评估指标（例如加权求和）往往不自然、不直观，甚至可能误导模型选择。例如：准确率（accuracy）越...

2026/01/11 机器学习策略

01 进行误差分析（Carrying out error analysis）

09 可避免偏差（Avoidable Bias）

12 改善你的模型的表现（Improving your model performance）

11 超越人类水平表现（Surpassing Human-Level Performance）

10 理解人类水平表现（Understanding human-level performance）

08 为什么关注“人类水平表现”？（Why Human-Level Performance?）

07 何时应改变开发、测试集和评估指标（When to change dev、test sets and metrics）

06 开发集和测试集的大小（Size of dev and test sets）

05 训练集、开发集、测试集划分（Train、Dev、Test Distributions）

04 满足指标（Satisficing Metrics）与优化指标（Optimizing Metrics）

热门标签