Seq2Seq 模型

黎浩然/ 1 10 月, 2023/ 序列模型/SEQUENCEMODEL, 机器学习/MACHINELEARNING/ 0 comments

Seq2Seq模型 – 維基百科，自由的百科全書

Seq2Seq的定义

Seq2Seq 模型是一种深度学习模型，通常由编码器 Encoder 解码器 Decoder 两部分组成。编码器理解输入序列并将其压缩成固定长度向量，解码器则负责从该向量生成输出序列。

Seq2Seq的应用

机器翻译
语音识别: 将音频信号转化为文本序列。
图像描述生成 (Image Captioning): 输入为图像，输出为描述图像内容的句子。例如，对于一张猫坐在椅子上的图片，模型可以生成“a cat sitting on a chair”这样的描述。

Seq2Seq的原理

对于机器翻译，输入句子的每个单词（如法语单词）都被输入到编码器网络（一个RNN、GRU或LSTM）中，该网络输出一个表示整个句子的向量。
解码器网络随后从该向量开始，逐字生成输出句子（如英语句子）。
对于图像描述生成，首先使用卷积神经网络（如预训练的AlexNet）对图像进行编码，然后使用RNN解码器生成描述。

注意事项：当使用Seq2Seq模型进行翻译或图像描述时，通常希望生成最有可能的翻译或描述，而不是随机选择。

Seq2Seq 模型能够将一种序列数据（如句子或图像）转换为另一种序列数据（如另一种语言的句子或图像描述）。在机器翻译、语音识别和图像描述生成等多种任务中都取得了显著成功。

Seq2Seq与LM区别

相似之处：

语言模型估计一个句子的概率，并可以用来生成新的句子。
机器翻译模型的解码部分与前面描述的语言模型非常相似。

不同之处：

语言模型通常从全零向量开始生成句子，而机器翻译模型会根据输入句子表示开始生成。
机器翻译模型可以被视为条件语言模型，因为它模拟的是基于输入句子（例如法语句子）的输出句子（例如英语翻译）的概率。

Seq2Seq 的搜索策略

贪婪搜索 (Greedy Search)：这是一个简单的策略，它在每一步都选择最有可能的词。然而，这种方法并不总是能得到最优的整体句子，因为选择最有可能的下一个词并不总是导致最有可能的句子。
波束搜索 (Beam Search)：这是一种启发式搜索策略，用于在巨大的搜索空间中近似地找到最有可能的句子。它在每一步保持了多个最有可能的部分句子，而不是只保持一个。

Beam Search 算法简介:

Beam Search 是一个用于生成序列的算法，尤其在机器翻译和语音识别中得到了广泛的应用。其目标是找到最有可能的输出序列，而不是随机的输出。
与贪婪搜索（每次只选择最可能的单词）不同，Beam Search 考虑多个可能的选择，并通过不断迭代来缩小选择范围。

Beam Search 工作原理:

初始化:
- 设定一个参数 B (称为 beam 宽度)，用来确定每次迭代时应考虑的可能选择的数量。
- 使用编码器网络处理输入句子，并初始化第一个词的选择。
迭代过程:
- 对于每一步，考虑所有可能的下一个单词，并使用解码器网络评估其概率。
- 选择 B 个最可能的序列，并将它们存储在计算机内存中。
- 重复这个过程，直到达到所需的序列长度或遇到序列结束标志。
结束:
- 最终，Beam Search 返回它认为最有可能的序列。

关键点:

Beam Search 的效率：尽管每一步都有多个选择，但 Beam Search 只需要实例化 B 个网络副本，而不是所有可能的选择。这使得 Beam Search 在实际应用中非常高效。
与贪婪搜索比较：当 B = 1 时，Beam Search退化为贪婪搜索。增加 B 值使得 Beam Search 能够考虑更多的可能性，从而通常能够找到比贪婪搜索更好的输出句子。

Leave a Comment 取消回复