38 参数(Parameters)与超参数(Hyperparameters)
一、核心概念区分 1. 参数(Parameters) 定义:模型在训练过程中自动学习的变量。 典型例子: 权重矩阵:$W^{[1]}, W^{[2]}, W^{[3]}, \dots$ 偏置向量:$b^{[1]}, b^{[2]}, b^{[3]}, \dots$ 特点: 通过反...
一、核心概念区分 1. 参数(Parameters) 定义:模型在训练过程中自动学习的变量。 典型例子: 权重矩阵:$W^{[1]}, W^{[2]}, W^{[3]}, \dots$ 偏置向量:$b^{[1]}, b^{[2]}, b^{[3]}, \dots$ 特点: 通过反...
一、整体目标 实现一个 L 层深度神经网络 的前向传播和反向传播。 前向传播用于计算预测值 $\hat{y}$; 反向传播用于计算损失函数对各参数的梯度($\frac{\partial \mathcal{L}}{\partial W^{[l]}}$, $\frac{\partial \mathcal{L}}{\partial b^{[l]}}$),用于参数更新。 二、...
一、核心思想 深度神经网络的训练依赖于两个关键过程: 前向传播(Forward Propagation) :从输入到输出逐层计算激活值。 反向传播(Backward Propagation) :从输出误差出发,逐层计算梯度,用于参数更新。 每一层都可视为一个“计算单元”,包含独立的前向函数和反向函数,并通过缓存(cache) 传递中间变量(尤其是 $z^{[l]}$...
一、核心观点 深度神经网络之所以在许多任务中表现优异,关键不在于参数总量大,而在于网络“深”——即具有多层隐藏层。这种“深度”使得网络能够以层次化、组合式的方式学习从简单到复杂的特征表示。 二、直观理解:层次化特征学习(Hierarchical Feature Learning) 1. 图像识别中的例子(如人脸识别) 第1层(浅层) :检测边缘(edges...
🎯 课程核心目标 在实现深度神经网络时,确保各层权重 $W^{[l]}$ 、偏置 $b^{[l]}$ 、激活值 $a^{[l]}$ 、线性输出 $z^{[l]}$ 等变量的维度正确,是避免 bug、调试代码的关键技巧。本节重点讲解如何通过手算维度来验证前向传播(forward propagation)中的矩阵运算是否合理。 🔢 符号约定与网络结构 总层数(不含输入层):$...
一、核心目标 理解如何在 L 层深度神经网络 中执行 前向传播(Forward Propagation) 掌握 单个样本 与 整个训练集(向量化) 两种情况下的计算方式 明确为何在实现中 必须使用 for 循环(无法完全向量化层间计算) 二、符号约定(Notation) 符号 含义 ...
一、什么是深层神经网络? Logistic 回归:可视为 1 层神经网络(只有输出层,无隐藏层),属于“浅层模型”。 单隐藏层神经网络:共 2 层(1 个隐藏层 + 1 个输出层)。 深层神经网络(Deep Neural Network) :具有 多个隐藏层(通常 ≥2),例如: 2 个隐藏层 → 3 层网络 5 个隐藏层 → 6...
一、Ian Goodfellow 的学术成长路径 1. 转向 AI 的契机 原本研究 神经科学(Neuroscience) 在 Stanford 本科期间,受导师 Jerry Cain 鼓励,选修了 Andrew Ng 的《人工智能导论》 课程中学习了 线性回归(Linear Regression)及其误差分解: \[\text{Error} = \text{B...
一、为什么不能将权重初始化为零? 在逻辑回归(Logistic Regression)中,将权重 $\mathbf{w}$ 初始化为零是可以接受的。 但在神经网络中,如果将所有权重初始化为零,会导致一个严重问题:对称性问题(Symmetry Problem) 。 1. 对称性问题的产生 考虑一个简单的神经网络结构: 输入特征数:$n^{(0)} = 2$ 隐藏层单元...
一、背景:从逻辑回归说起 在逻辑回归中,我们有如下前向传播流程: [\begin{aligned} z &= \mathbf{w}^\top \mathbf{x} + b a &= \sigma(z) = \frac{1}{1 + e^{-z}} \mathcal{L}(a, y) &= -y \log a - (1 - y) \log(1 - a) \e...