09 输入归一化(Normalizing Inputs)
一、为什么要归一化输入? 在训练神经网络时,如果输入特征的尺度(scale)差异很大(例如一个特征范围是 $[0, 1]$,另一个是 $[1, 1000]$),会导致: 代价函数(Cost Function)形状非常“细长” (elongated bowl),等高线呈椭圆形; 梯度下降(Gradient Descent)会来回震荡,收敛速度慢; 需要使用很小的学习率,否...
一、为什么要归一化输入? 在训练神经网络时,如果输入特征的尺度(scale)差异很大(例如一个特征范围是 $[0, 1]$,另一个是 $[1, 1000]$),会导致: 代价函数(Cost Function)形状非常“细长” (elongated bowl),等高线呈椭圆形; 梯度下降(Gradient Descent)会来回震荡,收敛速度慢; 需要使用很小的学习率,否...
除了 L2 正则化和 Dropout,还有哪些技术可以有效减少过拟合? 一、数据增强(Data Augmentation) ✅ 核心思想 在无法获取更多真实训练数据的情况下,通过对现有数据进行合理的变换,人工“制造”出新的训练样本,从而扩充训练集,提升模型泛化能力。 🔍 适用场景 图像任务(如图像分类) 光学字符识别(OCR) 📌 常见操作(以图像为例) ...
🧠 Dropout 详解:防止神经网络过拟合的强大正则化方法 一、什么是 Dropout? Dropout 是一种在训练过程中随机“关闭”(即设为0)神经网络中部分神经元的正则化技术。 在每次前向传播时,每个神经元以概率 $1 - p$ 被“丢弃”(即输出置零),其中 $p$ 称为 keep probability(保留概率) 。 测试/推理阶段不使用 Dropout,而...
1. 核心思想 Dropout 是一种在训练阶段随机“关闭”神经网络中一部分神经元的正则化技术,以减少过拟合。其本质是: 对每个训练样本,临时从网络中移除一部分神经元(连同其连接),从而训练一个“稀疏”的子网络;不同样本对应不同的子网络,最终模型相当于对大量子网络的集成。 2. Inverted Dropout 实现步骤(推荐方法) 设当前处理第 $l$ 层,保留...
🧠 一、核心问题:为什么正则化能减少过拟合? 过拟合的本质 在训练大型/深层神经网络时,模型具有极强的拟合能力(高方差),容易在训练集上表现极好,但在验证/测试集上泛化能力差。 正则化通过限制模型复杂度,使其更“简单”,从而提升泛化性能。 📐 二、L2 正则化(权重衰减)的基本形式 原始损失函数(无正则化): [J(W, b) = \frac{1}{m} \su...
一、为什么需要正则化? 问题背景:当神经网络出现过拟合(overfitting) 时,表现为在训练集上表现很好,但在开发集/测试集上误差较大 → 这是典型的高方差(high variance) 问题。 解决思路: 获取更多训练数据(可靠但成本高) 使用正则化(Regularization) :更常用、更经济的方法 ...
一、核心目标 系统性地诊断并改进神经网络模型的性能,主要围绕两个关键问题: 高偏差(High Bias) → 欠拟合(Underfitting) 高方差(High Variance) → 过拟合(Overfitting) 通过分析 训练误差(Training Error) 和 开发集误差(Dev Error) ,判断模型当前处于哪种状态,并采取针对性措施。 ...
一、核心概念:偏差与方差 在机器学习中,模型的泛化误差(Generalization Error)可分解为三部分: [\text{总误差} = \text{偏差}^2 + \text{方差} + \text{不可约误差(噪声)}] 偏差(Bias) :模型对训练数据的拟合能力不足,即“欠拟合”(Underfitting)。 方差(Variance) :模型对训练数据过度敏...
一、背景:应用机器学习是一个高度迭代的过程 在实际深度学习项目中,你无法在第一次就准确设定所有超参数(如网络层数、每层神经元数量、学习率、激活函数等)。 因此,应用机器学习 = 提出想法 → 编码实现 → 实验评估 → 迭代优化。 迭代效率 决定了你能否快速找到高性能模型。 💡 关键点:快速实验循环 是成功的关键,而合理划分数据集是提升该效率的核心手段。 二...
🧠 一、核心观点:深度学习 ≠ 人脑 “What does deep learning have to do with the brain? At the risk of giving away the punchline, I would say not a whole lot.” 尽管“神经网络像人脑”这一类比在媒体和公众中广为流传,但从科学角度看,这种类比非常薄弱,甚...