14 向量化（Vectorization）

发表于 2025-12-08 本文字数： 851 阅读时长 ≈ 3 分钟

　　向量化 是指避免在代码中使用显式的 for 循环，转而使用高度优化的矩阵/向量运算（如 NumPy 中的内置函数），从而大幅提升计算效率。

在深度学习中，我们经常处理大规模数据集（例如百万级特征或样本）。如果使用非向量化实现，程序运行会极其缓慢；而向量化能充分利用 CPU/GPU 的并行计算能力（SIMD 指令），使代码快数百倍甚至上千倍。

　　在逻辑回归中，我们需要计算：

$$
z = \mathbf{w}^\top \mathbf{x} + b
$$

　　其中：

z = 0
for i in range(n_x):
    z += w[i] * x[i]
z += b

z = np.dot(w, x) + b

c = np.dot(a, b)

c = 0
for i in range(1000000):
    c += a[i] * b[i]

💡 结果验证：两种方法计算出的 c 值完全一致（如 250699.123…），说明向量化不仅快，而且数值正确。

现代 CPU 和 GPU 都支持 SIMD（Single Instruction, Multiple Data） 指令。
- 即：一条指令同时处理多个数据。
NumPy 等库底层使用高度优化的 C/C++/BLAS 库（如 OpenBLAS、Intel MKL），能自动利用 SIMD 并行。
显式 for 循环由 Python 解释器逐行执行，解释开销大 + 无并行 → 极慢。

⚠️ 注意：即使没有 GPU，仅在 CPU 上，向量化也能带来巨大加速！

“尽可能避免显式 for 循环！”

　　在深度学习中，以下操作都应向量化：

　　本节是向量化的入门。接下来课程将：

✅ 总结要点

　　掌握向量化是高效深度学习编程的基石。它不仅让代码跑得更快，还能让你更专注于算法本身，而非低效的循环细节。