02 监督学习与神经网络

🎯 核心观点

迄今为止,神经网络创造的绝大部分经济价值,都来自「监督学习」(Supervised Learning)。


一、什么是监督学习?

  • 定义:给定输入 ( x ),学习一个函数映射到输出 ( y )。

    • 输入 ( x ):特征(如房屋面积、用户年龄、图像像素等)
    • 输出 ( y ):目标标签(如房价、是否点击广告、物体类别等)
  • 关键思想:通过大量带标签的数据((x, y) 对)训练模型,使其能对新输入做出准确预测。


二、监督学习的经典应用案例

应用领域 输入 (x) 输出 (y) 经济/技术价值
房价预测 房屋特征(面积、卧室数等) 价格 结构化数据典型应用
在线广告点击率预测 用户信息 + 广告信息 是否点击(0/1) 最赚钱的深度学习应用之一
图像分类(计算机视觉) 图像(像素) 类别标签(如“猫”、“车”) 推动CV革命,用于照片标签、安防等
语音识别 音频片段 文本转录 智能助手、字幕生成等
机器翻译 英文句子 中文句子 跨语言沟通自动化
自动驾驶 前方图像 + 雷达数据 其他车辆位置/轨迹 多模态融合的关键组件

💡 关键洞察:成功 = 正确定义 (x) 和 (y) + 将监督学习嵌入更大系统(如自动驾驶)


三、不同任务对应不同神经网络架构

数据类型 网络架构 缩写 适用场景
通用/结构化数据 标准前馈神经网络 MLP(多层感知机) 房价预测、广告点击
图像数据 卷积神经网络 CNN 图像分类、目标检测
序列数据(时间相关) 循环神经网络 RNN / LSTM / GRU 语音、文本、时间序列
多模态复杂任务 混合/定制架构 自动驾驶(图像+雷达)

✅ ​CNN​:擅长提取局部空间特征(如边缘、纹理)
✅ ​RNN:擅长处理顺序依赖(如“昨天”影响“今天”的语义)


四、结构化数据 vs. 非结构化数据

类型 定义 示例 特点
结构化数据 表格形式,每列有明确含义 房屋数据库(面积、卧室数)、用户画像(年龄、性别) 易于传统模型处理,但神经网络也能提升精度
非结构化数据 无固定格式,原始信号 图像、音频、文本 人类天生擅长理解,神经网络突破最大领域

🔥 ​深度学习的最大突破:让计算机终于能高效处理非结构化数据(图像/语音/文本),开启AI新时代。


五、媒体关注 vs. 实际价值

  • 媒体更爱报道​:识别猫、下围棋、生成艺术 → 因为直观、有趣、有“人性共鸣”

  • 实际经济价值更多来自

    • 广告推荐系统
    • 金融风控
    • 电商个性化推荐
    • 企业数据库智能分析

📌 ​提醒​:不要只追逐“酷炫”应用,​结构化数据中的监督学习同样极具商业价值


六、为什么现在才爆发?(预告)

虽然神经网络理论几十年前就存在,但直到近年才真正“起飞”。
下一讲将探讨三大驱动力:

  1. 大数据(海量标注数据)
  2. 算力提升(GPU/TPU)
  3. 算法改进(如ReLU、BatchNorm、残差连接等)

🧠 思维导图(脑图)大纲(中文)

mindmap
监督学习与神经网络
核心定义
输入 x
输出 y
学习映射函数
典型应用
房价预测
输入 房屋特征
输出 价格
在线广告
输入 用户和广告信息
输出 是否点击
经济价值最高
图像分类
输入 图像
输出 类别标签
使用 CNN
语音识别
输入 音频
输出 文本
使用 RNN
机器翻译
输入 英文句子
输出 中文句子
自动驾驶
输入 图像和雷达
输出 车辆位置
网络架构
标准神经网络
用于 结构化数据
卷积神经网络
用于 图像
循环神经网络
用于 序列数据
混合架构
用于 复杂任务
数据类型
结构化数据
表格形式
字段明确
如 房屋面积 用户年龄
非结构化数据
原始信号
如 图像 音频 文本
深度学习主战场
价值对比
媒体关注
识别猫
下围棋
生成艺术
实际价值
广告系统
个性化推荐
金融风控
为何近年爆发
大数据
强大算力
算法创新

  ‍