Leon Yi

06 处理数据不匹配问题(Addressing Data Mismatch)

06 处理数据不匹配问题(Addressing Data Mismatch) 一、问题背景:训练集与开发/测试集分布不一致 在实际机器学习项目中,常常出现: 训练集 来自一个分布(例如安静环境下的语音) 开发集 / 测试集 来自另一个更真实但不同的分布(例如车内有噪声的语音) 此时即使模型在训练集上表现很好,在开发集上性能却显著下降,这称为 数据不匹配问题(Data Mi...

05 数据分布不匹配时的偏差与方差分析(Bias and Variance with Mismatched Data Distributions)

05 数据分布不匹配时的偏差与方差分析(Bias and Variance with Mismatched Data Distributions) 一、背景问题:训练集与开发/测试集分布不同 在传统机器学习中,我们假设: 训练集、开发集(Dev)、测试集(Test)来自同一分布。 此时可通过比较 训练误差 $E_{\text{train}}$ 与 开发误差 $E_{\text...

04 使用来自不同分布的数据进行训练和测试(Training and testing on different distributions)

04 使用来自不同分布的数据进行训练和测试(Training and testing on different distributions) 一、核心问题:训练集与开发/测试集分布不一致 在深度学习实践中,常常面临以下困境: 目标分布(Target Distribution) :模型最终需要部署的真实场景数据(如用户手机上传的模糊照片、车载语音指令)。 辅助数据(Auxili...

03 快速搭建你的第一个系统,并进行迭代

03 快速搭建你的第一个系统,并进行迭代 1. 为什么不要一开始就追求完美? 在开发一个全新的机器学习应用时(如语音识别、医疗图像分析等),存在大量可能的优化方向(例如抗噪、口音鲁棒性、远场识别、儿童语音处理等)。面对这些选择,初学者或新项目团队很容易陷入“分析瘫痪”(analysis paralysis)——花太多时间思考“最佳起点”,却迟迟不行动。 ✅ 关键洞见: 对于新问题...

02 清除标注错误的数据(Cleaning up Incorrectly Labeled Data)

02 清除标注错误的数据(Cleaning up Incorrectly Labeled Data) 一、问题背景 在监督学习中,训练数据由输入 $x^{(i)}$ 和标签 $y^{(i)}$ 构成。但在实际项目中,标签可能出错(即人类标注错误),例如: 将狗误标为猫($y=1$ 应为 $y=0$); 或将非猫图像(如猫的图画)误标为猫。 这类样本称为 “标记错误的样本...

01 进行误差分析(Carrying out error analysis)

01 进行误差分析(Carrying out error analysis) 一、什么是误差分析(Error Analysis)? 误差分析 是在开发机器学习系统(尤其是监督学习模型)时,通过人工检查模型在开发集上出错的样本,来判断哪些错误类型最常见、哪些改进方向最具潜力的一种定性+定量分析方法。 ✅ 核心目的:避免盲目投入大量时间优化一个对整体性能提升微乎其微的问题。 ...

12 改善你的模型的表现(Improving your model performance)

12 改善你的模型的表现(Improving your model performance) 🧠 提升监督学习模型性能的系统化方法 ——基于偏差-方差分解与正交化思想 一、核心目标:构建高性能监督学习系统 要使一个监督学习算法在实践中表现良好,需同时满足两个条件: 在训练集上拟合良好 → 可避免偏差(Avoidable Bias)低 从训练集到开发/测试集泛化良好 →...

10 理解人类水平表现(Understanding human-level performance)

10 理解人类水平表现(Understanding human-level performance) 一、核心概念:人类水平错误率 ≠ 单一数值 在机器学习项目中,“人类水平错误率”(human-level error)常被随意使用,但其精确定义取决于你的目标: 目标1:估计贝叶斯错误率(Bayes error) → 应采用人类能达到的最佳表现(如经验丰富的医生团队)作为代理。...