当我输入 hello 后,Agent 做了什么?
先用 Codex 做实验 输入 hello,用了技能,输出你好 要了解 agent 做了什么,需要拿到请求或者历史记录,直接问agent,codex 的历史记录在哪里? 返回了这些 codex 还挺实在,按日期归类了 找到一个 jsonl 文档,打开看看 没想到连系统提示词都保存了,翻译一下 你是基于GPT‑5的编码智能体Codex。你与...
先用 Codex 做实验 输入 hello,用了技能,输出你好 要了解 agent 做了什么,需要拿到请求或者历史记录,直接问agent,codex 的历史记录在哪里? 返回了这些 codex 还挺实在,按日期归类了 找到一个 jsonl 文档,打开看看 没想到连系统提示词都保存了,翻译一下 你是基于GPT‑5的编码智能体Codex。你与...
这一节在讲什么 这一节没有新公式,重点是回顾整门课的主线,并强调深度学习能做什么。 课程回顾 吴恩达在这里回顾了整个专项课程已经覆盖的内容: 神经网络和深度学习 深层网络的优化与改进 机器学习项目的结构化方法 卷积神经网络 序列模型 也就是说,到这一节为止,你已经把深度学习里最核心的一批基础模块都走过一遍了。 对序列模型这门课的回顾 这门...
这一节在讲什么 这一节讲的是触发字检测,也叫唤醒词检测。 典型例子: Alexa Hey Siri Okay Google 小度你好 任务目标不是完整转写整段语音,而是判断: 这一段音频里,什么时候刚刚说完了触发词? 为什么这个任务更简单 和完整语音识别相比,触发字检测只关心一个固定短语。 所以: 输出空间小得多 数...
这一节在讲什么 这一节讲 seq2seq 和相关模型怎样用于语音识别,也就是: 输入一段音频,输出它对应的文本。 任务形式 输入是音频片段 $x$,输出是文本序列 $y$: [x \rightarrow y] 例如: 输入是一段说了 the quick brown fox 的音频 输出就是文本 the quick brown fox 为什么不能...
这一节在讲什么 这一节把上一节的直觉正式写成公式,说明注意力模型到底怎么算。 第一步:先用双向 RNN 编码输入 假设输入句子长度是 $T_x$。 对每个输入位置 $t’$,双向 RNN 会得到一个表示向量: [a^{\langle t’ \rangle}] 你可以把它理解成: 第 $t’$ 个词在结合了左边和右边上下文之后的“上下文特征”。 所以...
这一节在讲什么 这一节先不急着上公式,而是讲一个核心直觉: 人在翻译长句子时,不会先把整句死记硬背下来,再一次性吐出来;人是看一部分,翻一部分。 注意力模型就是把这个想法交给神经网络。 为什么基础 seq2seq 对长句子吃力 基础编码器-解码器的做法是: 编码器把整句都读完 把整句信息压成一个固定长度向量 解码器再靠这个向量生成整句翻译 ...
这一节在讲什么 机器翻译有一个麻烦: 同一句法语,可能有好几种都正确的英文翻译。 所以不能像分类任务那样,只看“是否完全等于标准答案”。 BLEU 就是为了解决这个问题而设计的自动评价指标。 为什么机器翻译不好评估 课程里的例子: 法语句子: [\text{Le chat est sur le tapis}] 参考翻译 1: [\text{...
1. 核心背景:为什么需要这个分析? 在机器翻译中,系统通常由两个主要部分组成: RNN 模型(序列到序列模型) :负责“理解”和“生成”。它计算每一个可能句子的概率(可能性)。我们可以把它想象成一个评分员,它给每个句子打分,分数越高代表它认为这个句子越好。 集束搜索算法(Beam Search) :负责“寻找”。因为可能的句子组合太多(天文数字),它无法遍历所有句子,所以...
这一节在讲什么 上一节已经知道束搜索怎么跑了,这一节讲两个实战里非常重要的改进: 用 log 概率代替原始概率连乘 用长度归一化,避免模型偏爱短句子 为什么不能直接乘概率 整句概率是: [P(y\mid x)=\prod_{t=1}^{T_y} P(y^{\langle t \rangle} \mid x, y^{\langle 1:t-1 \rangle})]...
这一节在讲什么 这一节正式讲 Beam Search。它解决的问题是: 不可能把所有翻译句子都试一遍,那就只保留“目前最有希望”的少数候选。 先说核心思想 束搜索不是每一步只留 1 条路,而是留 $B$ 条路。 这里的 $B$ 叫做束宽(beam width)。 如果 $B=1$,那就退化成贪心搜索 如果 $B=3$,每一步保留 3 个最有希望的部分...