PyTorch教程10.8之波束搜索

1857884 2023-06-05 | pdf | 0.20 MB | 次下载 | 免费

资料介绍

在10.7 节中，我们介绍了编码器-解码器架构，以及端到端训练它们的标准技术。然而，当谈到测试时间预测时，我们只提到了贪心策略，我们在每个时间步选择下一个预测概率最高的标记，直到在某个时间步，我们发现我们已经预测了特殊的序列结尾“”标记。在本节中，我们将从形式化这种贪婪搜索策略开始，并确定从业者往往会遇到的一些问题。随后，我们将该策略与两种替代方案进行比较：穷举搜索（说明性但不实用）和 波束搜索（实践中的标准方法）。

让我们从设置我们的数学符号开始，借用第 10.7 节中的约定。随时步t′，解码器输出表示词汇表中每个标记出现在序列中的概率的预测（可能的值 yt′+1, 以先前的标记为条件 y1,…,yt′和上下文变量c，由编码器产生以表示输入序列。为了量化计算成本，表示为Y输出词汇表（包括特殊的序列结束标记“”）。我们还将输出序列的最大标记数指定为 T′. 我们的目标是搜索所有的理想输出 O(|Y|T′)可能的输出序列。请注意，这稍微高估了不同输出的数量，因为在“”标记出现之后没有后续标记。然而，出于我们的目的，这个数字大致反映了搜索空间的大小。

10.8.1。贪心搜索

考虑第 10.7 节中的简单贪婪搜索策略。在这里，随时步t′，我们只需从中选择条件概率最高的标记 Y， IE，

(10.8.1)yt′=argmaxy∈YP(y∣y1,…,yt′−1,c).

一旦我们的模型输出“”（或者我们达到最大长度 T′) 输出序列完成。

这个策略看似合理，其实还不错！考虑到它在计算上的要求是多么的低，你很难获得更多的收益。然而，如果我们暂时搁置效率，搜索最有可能的序列似乎更合理，而不是（贪婪选择的）最有可能的标记序列。事实证明，这两个对象可能完全不同。最可能的序列是最大化表达式的序列 ∏t′=1T′P(yt′∣y1,…,yt′−1,c). 在我们的机器翻译示例中，如果解码器真正恢复了潜在生成过程的概率，那么这将为我们提供最有可能的翻译。不幸的是，不能保证贪心搜索会给我们这个序列。

让我们用一个例子来说明它。假设输出字典中有四个标记“A”、“B”、“C”和“”。在图10.8.1中，每个时间步下的四个数字分别代表在该时间步生成“A”、“B”、“C”、“”的条件概率。

https://file.elecfans.com/web2/M00/A9/C9/poYBAGR9N4-AaGx4AAET1yiKAhk378.svg

图 10.8.1在每个时间步，贪婪搜索选择条件概率最高的标记。

在每个时间步，贪心搜索选择条件概率最高的标记。因此，将预测输出序列“A”、“B”、“C”和“”（图 10.8.1）。这个输出序列的条件概率是 0.5×0.4×0.4×0.6=0.048.

接下来，让我们看一下图 10.8.2中的另一个例子。与图 10.8.1不同，在时间步 2 中，我们选择图 10.8.2中的标记“C” ，它具有第二高的条件概率。

https://file.elecfans.com/web2/M00/AA/43/pYYBAGR9N5GACDvWAAEKuTR1cgg914.svg

图 10.8.2每个时间步下的四个数字代表在该时间步生成“A”、“B”、“C”和“”的条件概率。在时间步 2，选择具有第二高条件概率的标记“C”。

由于时间步3所基于的时间步1和2的输出子序列已经从图10.8.1中的“A”和“B”变为图10.8.2 中的“A”和“C” ，图 10.8.2中每个标记在时间步长 3 的条件概率也发生了变化。假设我们在时间步 3 选择标记“B”。现在时间步 4 以前三个时间步“A”、“C”和“B”的输出子序列为条件，这与“A”不同、“B”、“C”在图 10.8.1中。因此，图 10.8.2中第 4 步生成每个 token 的条件概率也与图 10.8.1不同. 因此，图 10.8.2中输出序列“A”、“C”、“B”和“”的条件概率为 0.5×0.3×0.6×0.6=0.054，大于图 10.8.1中的贪心搜索。在本例中，贪心搜索得到的输出序列“A”、“B”、“C”、“”并不是最优序列。