DevDino 🦖

我曾七次鄙视自己的灵魂

1. 核心概念

  • 前向传播 (Forward Propagation)

    • 方向:从左到右(时间步 $t$ 从 $1$ 增加到 $T_x$)。
    • 过程:利用输入序列 $x^{(1)}, x^{(2)}, \dots, x^{(T_x)}$ 和共享参数 $W_{ax}, W_{aa}, b_a$,依次计算每个时间步的激活值 $a^{(t)}$。
    • 输出计算:利用激活值 $a^{(t)}$ 和参数 $W_{ya}, b_y$ 计算预测值 $\hat{y}^{(t)}$。
    • 特点:所有时间步共享同一组参数,当前时刻的激活值依赖于上一时刻的激活值。
  • 反向传播 (Backward Propagation)

    • 方向:从右到左(时间步 $t$ 从 $T_x$ 递减到 $1$),即“时间倒流”。
    • 目的:计算损失函数相对于各参数的梯度,以便使用梯度下降法更新参数。
    • 命名由来:因为计算方向与时间流逝方向相反,仿佛穿越时光,故称为“通过时间的反向传播” (BPTT)。
阅读全文 »

1. 任务背景:命名实体识别 (NER)

  • 目标:建立一个序列模型,输入一个句子,输出每个单词是否属于人名(或其他实体如公司、地点等)。
  • 示例:输入 “Harry Potter and Hermione Granger invented a new spell.”,模型需识别出 “Harry Potter” 和 “Hermione Granger” 是人名。
  • 输出形式:最简单的形式是为输入序列中的每个单词对应一个二元标签(是否为人名的一部分)。更复杂的形式可以标记实体的起止位置。
阅读全文 »

1. 核心概念

  序列模型是深度学习中极具变革性的技术,特别适用于处理序列数据。传统的神经网络难以有效处理具有时间依赖性或顺序结构的数据,而循环神经网络(RNN)等序列模型在此类任务中表现卓越。

阅读全文 »

摘要:你是否注意过,当电脑上挂着微信时,网页登录不再需要掏出手机扫码,而是直接弹出一个“微信快捷登录”的按钮?这背后并非魔法,而是一场浏览器与本地客户端之间精妙的“密谋”。本文将深入源码,拆解这一体验背后的技术原理。


阅读全文 »