基于注意力的模型 (Attention-based Model)

黎 浩然/ 13 11 月, 2023/ 序列模型/SEQUENCEMODEL, 机器学习/MACHINELEARNING, 研究生/POSTGRADUATE/ 0 comments

  1. Pay attention on partial of the input object each time
  2. In RNN/LSTM, larger memory implies more parameters
  3. Increasing memory size will not increasing parameters while in attention-based model
  4. $z^0$ 可以理解为RNN中的 initialized memory vector
  5. Match 可以是 $h^?$ 和 $z^i$ 的余弦相似度或者小型的神经网络,确保输出的 $\alpha_i^?$ 是标量

$$ \begin{equation} \alpha^i_j=match(h^i,z^j) \end{equation} $$

Share this Post

Leave a Comment

您的邮箱地址不会被公开。 必填项已用 * 标注

*
*