17 指数加权平均(Exponentially Weighted Averages)
发表于
本文字数:
978
阅读时长 ≈
4 分钟
目的:为后续学习更高效的优化算法(如 Momentum、Adam)打下基础。
别名:在统计学中也称为 指数加权滑动平均(Exponentially Weighted Moving Average, EWMA) 。
16 了解小批量梯度下降法
发表于
本文字数:
2.2k
阅读时长 ≈
8 分钟
15 优化算法 —— Mini-batch Gradient Descent(小批量梯度下降)
发表于
本文字数:
727
阅读时长 ≈
3 分钟
约书亚·本吉奥访谈
发表于
本文字数:
1.6k
阅读时长 ≈
6 分钟
一、Yoshua Bengio 的学术起源
启蒙:少年时期受科幻小说启发,对人工智能产生兴趣。
1985年:进入研究生阶段,开始阅读神经网络论文,被“联结主义”(connectionism)思想吸引——即智能源于大量简单单元(神经元)的分布式协同,而非传统AI中的符号逻辑或“祖母细胞”(grandmother cell)式表示。
早期研究方向:
- 循环神经网络(RNN)
- 语音识别
- 隐马尔可夫模型(HMM)与图模型(graphical models)
博士后经历:在 AT&T Bell Labs 和 MIT 工作期间,首次意识到长程依赖问题(long-term dependencies)和梯度消失(vanishing gradients)是训练深度网络的核心障碍。