Leon Yi

08 神经网络中的其他正则化方法

除了 L2 正则化和 Dropout,还有哪些技术可以有效减少过拟合? 一、数据增强(Data Augmentation) ✅ 核心思想   在无法获取更多真实训练数据的情况下,通过对现有数据进行合理的变换,人工“制造”出新的训练样本,从而扩充训练集,提升模型泛化能力。 🔍 适用场景 图像任务(如图像分类) 光学字符识别(OCR) 📌 常见操作(以图像为例) ...

06 Dropout 正则化

1. 核心思想   Dropout 是一种在训练阶段随机“关闭”神经网络中一部分神经元的正则化技术,以减少过拟合。其本质是: 对每个训练样本,临时从网络中移除一部分神经元(连同其连接),从而训练一个“稀疏”的子网络;不同样本对应不同的子网络,最终模型相当于对大量子网络的集成。 2. Inverted Dropout 实现步骤(推荐方法)   设当前处理第 $l$ 层,保留...

05 为什么正则化能减少过拟合?

🧠 一、核心问题:为什么正则化能减少过拟合? 过拟合的本质 在训练大型/深层神经网络时,模型具有极强的拟合能力(高方差),容易在训练集上表现极好,但在验证/测试集上泛化能力差。 正则化通过限制模型复杂度,使其更“简单”,从而提升泛化性能。 📐 二、L2 正则化(权重衰减)的基本形式   原始损失函数(无正则化): [J(W, b) = \frac{1}{m} \su...

01 训练集(Train)、开发集(Dev)和测试集(Test)

一、背景:应用机器学习是一个高度迭代的过程 在实际深度学习项目中,你无法在第一次就准确设定所有超参数(如网络层数、每层神经元数量、学习率、激活函数等)。 因此,应用机器学习 = 提出想法 → 编码实现 → 实验评估 → 迭代优化。 迭代效率 决定了你能否快速找到高性能模型。 💡 关键点:快速实验循环 是成功的关键,而合理划分数据集是提升该效率的核心手段。 二...