DevDino 🦖

我曾七次鄙视自己的灵魂

一、什么是指数加权平均?

  指数加权平均是一种高效计算时间序列数据滑动平均值的方法,广泛应用于深度学习中的优化算法(如 Momentum、RMSProp、Adam 等)。

阅读全文 »

一、背景:为什么需要 Mini-batch Gradient Descent?

  在训练大型神经网络时,直接使用 Batch Gradient Descent(全批量梯度下降)Stochastic Gradient Descent(随机梯度下降) 都存在明显缺点:

阅读全文 »

一、Yoshua Bengio 的学术起源

  • 启蒙:少年时期受科幻小说启发,对人工智能产生兴趣。

  • 1985年:进入研究生阶段,开始阅读神经网络论文,被“联结主义”(connectionism)思想吸引——即智能源于大量简单单元(神经元)的分布式协同,而非传统AI中的符号逻辑或“祖母细胞”(grandmother cell)式表示。

  • 早期研究方向

    • 循环神经网络(RNN)
    • 语音识别
    • 隐马尔可夫模型(HMM)与图模型(graphical models)
  • 博士后经历:在 AT&T Bell Labs 和 MIT 工作期间,首次意识到长程依赖问题(long-term dependencies)和梯度消失(vanishing gradients)是训练深度网络的核心障碍。

阅读全文 »