DevDino 🦖

18 了解指数加权平均

发表于 2026-01-02 本文字数： 1.7k 阅读时长 ≈ 6 分钟

一、什么是指数加权平均？

　　指数加权平均是一种高效计算时间序列数据滑动平均值的方法，广泛应用于深度学习中的优化算法（如 Momentum、RMSProp、Adam 等）。

阅读全文 »

17 指数加权平均（Exponentially Weighted Averages）

发表于 2026-01-02 本文字数： 978 阅读时长 ≈ 4 分钟

目的：为后续学习更高效的优化算法（如 Momentum、Adam）打下基础。
别名：在统计学中也称为 指数加权滑动平均（Exponentially Weighted Moving Average, EWMA） 。

阅读全文 »

16 了解小批量梯度下降法

发表于 2026-01-02 本文字数： 2.2k 阅读时长 ≈ 8 分钟

一、背景：为什么需要 Mini-batch Gradient Descent？

　　在训练大型神经网络时，直接使用 Batch Gradient Descent（全批量梯度下降） 或 Stochastic Gradient Descent（随机梯度下降） 都存在明显缺点：

阅读全文 »

15 优化算法 —— Mini-batch Gradient Descent（小批量梯度下降）

发表于 2026-01-02 本文字数： 727 阅读时长 ≈ 3 分钟

一、背景与动机

　　深度学习通常在大规模数据集上训练神经网络。若使用全批量梯度下降（Batch Gradient Descent） ，每次参数更新需遍历全部 $m$ 个训练样本：

阅读全文 »

约书亚·本吉奥访谈

发表于 2026-01-01 本文字数： 1.6k 阅读时长 ≈ 6 分钟

一、Yoshua Bengio 的学术起源

启蒙：少年时期受科幻小说启发，对人工智能产生兴趣。
1985年：进入研究生阶段，开始阅读神经网络论文，被“联结主义”（connectionism）思想吸引——即智能源于大量简单单元（神经元）的分布式协同，而非传统AI中的符号逻辑或“祖母细胞”（grandmother cell）式表示。
早期研究方向：
- 循环神经网络（RNN）
- 语音识别
- 隐马尔可夫模型（HMM）与图模型（graphical models）
博士后经历：在 AT&T Bell Labs 和 MIT 工作期间，首次意识到长程依赖问题（long-term dependencies）和梯度消失（vanishing gradients）是训练深度网络的核心障碍。

阅读全文 »