04 神经网络中的正则化(Regularization in Neural Networks)
一、为什么需要正则化? 问题背景:当神经网络出现过拟合(overfitting) 时,表现为在训练集上表现很好,但在开发集/测试集上误差较大 → 这是典型的高方差(high variance) 问题。 解决思路: 获取更多训练数据(可靠但成本高) 使用正则化(Regularization) :更常用、更经济的方法 ...
一、为什么需要正则化? 问题背景:当神经网络出现过拟合(overfitting) 时,表现为在训练集上表现很好,但在开发集/测试集上误差较大 → 这是典型的高方差(high variance) 问题。 解决思路: 获取更多训练数据(可靠但成本高) 使用正则化(Regularization) :更常用、更经济的方法 ...
一、核心目标 系统性地诊断并改进神经网络模型的性能,主要围绕两个关键问题: 高偏差(High Bias) → 欠拟合(Underfitting) 高方差(High Variance) → 过拟合(Overfitting) 通过分析 训练误差(Training Error) 和 开发集误差(Dev Error) ,判断模型当前处于哪种状态,并采取针对性措施。 ...
一、核心概念:偏差与方差 在机器学习中,模型的泛化误差(Generalization Error)可分解为三部分: [\text{总误差} = \text{偏差}^2 + \text{方差} + \text{不可约误差(噪声)}] 偏差(Bias) :模型对训练数据的拟合能力不足,即“欠拟合”(Underfitting)。 方差(Variance) :模型对训练数据过度敏...
一、背景:应用机器学习是一个高度迭代的过程 在实际深度学习项目中,你无法在第一次就准确设定所有超参数(如网络层数、每层神经元数量、学习率、激活函数等)。 因此,应用机器学习 = 提出想法 → 编码实现 → 实验评估 → 迭代优化。 迭代效率 决定了你能否快速找到高性能模型。 💡 关键点:快速实验循环 是成功的关键,而合理划分数据集是提升该效率的核心手段。 二...
🧠 一、核心观点:深度学习 ≠ 人脑 “What does deep learning have to do with the brain? At the risk of giving away the punchline, I would say not a whole lot.” 尽管“神经网络像人脑”这一类比在媒体和公众中广为流传,但从科学角度看,这种类比非常薄弱,甚...
一、核心概念区分 1. 参数(Parameters) 定义:模型在训练过程中自动学习的变量。 典型例子: 权重矩阵:$W^{[1]}, W^{[2]}, W^{[3]}, \dots$ 偏置向量:$b^{[1]}, b^{[2]}, b^{[3]}, \dots$ 特点: 通过反...
一、整体目标 实现一个 L 层深度神经网络 的前向传播和反向传播。 前向传播用于计算预测值 $\hat{y}$; 反向传播用于计算损失函数对各参数的梯度($\frac{\partial \mathcal{L}}{\partial W^{[l]}}$, $\frac{\partial \mathcal{L}}{\partial b^{[l]}}$),用于参数更新。 二、...
一、核心思想 深度神经网络的训练依赖于两个关键过程: 前向传播(Forward Propagation) :从输入到输出逐层计算激活值。 反向传播(Backward Propagation) :从输出误差出发,逐层计算梯度,用于参数更新。 每一层都可视为一个“计算单元”,包含独立的前向函数和反向函数,并通过缓存(cache) 传递中间变量(尤其是 $z^{[l]}$...
一、核心观点 深度神经网络之所以在许多任务中表现优异,关键不在于参数总量大,而在于网络“深”——即具有多层隐藏层。这种“深度”使得网络能够以层次化、组合式的方式学习从简单到复杂的特征表示。 二、直观理解:层次化特征学习(Hierarchical Feature Learning) 1. 图像识别中的例子(如人脸识别) 第1层(浅层) :检测边缘(edges...
🎯 课程核心目标 在实现深度神经网络时,确保各层权重 $W^{[l]}$ 、偏置 $b^{[l]}$ 、激活值 $a^{[l]}$ 、线性输出 $z^{[l]}$ 等变量的维度正确,是避免 bug、调试代码的关键技巧。本节重点讲解如何通过手算维度来验证前向传播(forward propagation)中的矩阵运算是否合理。 🔢 符号约定与网络结构 总层数(不含输入层):$...