Encoder-Decoder

大多数注意力模型都是在Encoder-Decoder框架下发挥作用，Encoder-Decoder模型一般可以用来做机器翻译、文本摘要生成、问答系统、聊天机器人等。Encoder的输入是Source，Decoder要输出的是Target，一般通过RNN来编码输入的句子，得到一个包含的句子语义信息的Vector $C$。假设句子由$t$个单词组成，即$(w_{1},w_{2},w_{3},···,w_{t-t-1},w_{t})$。那么RNN或Transformer等模型就作为编码句子的Encoder，首先句子经过Embedding层，从one-hot形式变为词向量$(x_{1},x_{2},x_{3},···,x_{t-1},x_{t})$，假设它提取句子的语义信息的函数为$\psi$，则：

$C = \psi(x_{1},x_{2},x_{3},···,x_{t-1},x_{t})$

对于Decoder来说，它的目标是根据Encoder编码好的句子信息$C$解码出我们想要的结果，这结果可以是对原输入句子的回答，翻译，或摘要等。假设Decoder的输出为$(y_{1},y_{2},y_{3},···,y_{m-1},y_{m})$，$m$和$t$的大小关系并不确定，一般来说Decoder输出<EOS>句子才算结束。

假设t=i时，我们要输出$y_{i}$，其实我们输出的是一个概率分布，然后再选取概率最大的那个单词当作$y_{i}$输出(贪心 search)，还有另一种方式叫beam search，这个不是本文重点就在此不多说了。根据Bahdanau et al. ICLR2014第一次提出的将Attention运用于机器翻译任务的论文中，$y_{i}$的计算公式如下：

$p(y_{i}|y_{1},···,y_{i-1},x) = g(y_{i-1},s_{i},C)$

其中$s_{i}$是RNN在$i^{th}$timestep的hidden state，由如下公式计算：

$s_{i} = f(s_{i-1},y_{i-1},C)$

由于直接输出的$y_{i}$实际是一个长度为vocabulary size $|V|$的vector，因此最终根据生成的单词$y_{i}$其实应该变成一个one-hot vector：

$y_{i} = \mathop{onehot}(y_{i})，y_{i} \in R^{|V|}$

在这里简单地将Decoder整个生成yi的函数用$\varphi$表示：

$y_{i} = \varphi(C,y_{1},y_{2},y_{3},···,y_{i-1})$

这样就是一个Encoder-Decoder框架运作的基本方式，更直观的可以参见下图。

Soft Attention

最常见也应用最广泛的Attention就是Soft Attention，上面的Encoder-Decoder框架，在Decoder生成每一个yi时，对原输入整个句子语义信息C都给予了同等的注意力，即原句中不同的单词对于生成每一个yi的贡献是相同的。这明显是有问题的，比如在中英翻译：“我今天吃了一个苹果”，“I ate an apple today”，在翻译apple这个词时，原句中的“苹果”对其生成apple要比其他词都重要，因此，需要一个给单纯的Encoder-Decoder模型融入更多的知识，那就是Attention。

Attention的有效性和作用是很intuitive的，比如人在读文章、观察物体时也是会有注意力的参与的，不可能读一页书读到第一行，还能同时注意第二十行的句子，注意力肯定是分配在某个局部的句子上的。因此，给Encoder-Decoder添加Attention，就是要让Decoder在生成$y_{i}$时，给输入句子的单词$(x_{1},x_{2},x_{3},···,x_{t-1},x_{t})$分配不同的注意力权重$\alpha_{ij}$，权重代表着单词$x_{j}$对生成$y_{i}$的重要性。

假设Encoder是RNN，输入每个单词$x_{j}$后都会输出一个隐状态$h_{j}$，那么对生成$y_{i}$时，原先对生成每个yi都是相同的句子语义表示$C$会被替换成根据当前要生成的单词yi而不断变化的$C_{i}$。理解Attention模型的关键就是这里，即把固定的句子语义表示$C$变成了根据当前要输出的单词yi来进行调整的、融入注意力知识的、不断变化的$C_{i}$。

因此上面生成yi的式子变化成如下形式：

$\begin{aligned} s_{i} &= f(s_{i-1},y_{i-1},C_{i}) \\ e_{ij} &= \Gamma(s_{i-1}, h_{j}) \\ \alpha_{ij} &= \frac{exp(e_{ij})}{\sum_{k=1}^{t}exp(e_{ik})}\\ C_{i} &= \sum_{j=1}^{t}\alpha_{ij}\cdot h_{j} \\ p(y_{i}) &= g(y_{i-1},s_{i},C_{i}) \\ \end{aligned}$

其中，t代表输入句子Source的长度，$\alpha_{ij}$代表在Decoder输出第i个单词时给Source中第j个单词的注意力分配系数，而hj则是Encoder输入第j个单词时输出的隐状态(语义编码)。根据NMT论文原文，$\Gamma$ is an alignment model which scores how well the inputs around position j and the output at position i match. The score is based on the RNN hidden state $s_{i−1}$ (just before emitting yi) and the j-th annotation hj of the input sentence. 至于$\Gamma$函数的选取下面会说明。下图是一个可视化的效果，帮助理解。

计算Attention

我们已经知道了attention是什么，有什么作用，下面具体说明到底怎么计算attention。

假设Encoder输入$x_{j}$后输出的隐状态为$h_{j}$，Decoder在输出$y_{i}$前隐层节点状态为$s_{i-1}$，那么可以用这个时刻的隐层节点状态去一一和输入句子中每个单词对应的RNN隐状态$h_{j}$进行对比，即通过函数$\Gamma(h_{j},s_{i-1})$来获得目标单词yi和每个输入单词对齐的可能性。$\Gamma$函数在不同论文里可能会采取不同的方法，然后$\Gamma$的所有输出经过Softmax进行归一化就得到了注意力分配到每个输入单词上的权重。下图展示了这个计算过程：

上面说到不同的论文$\Gamma$函数会采取不同的方法，其中较为普遍的类型有两种，一个是加法Attention，另一个是乘法Attention。

加法Attention

$\Gamma\left(\mathbf{h}_{j}, \mathbf{s}_{i-1}\right)=\mathbf{v}_{a}^{\top} \tanh \left(\mathbf{W}_{a}\left[\mathbf{h}_{j} ; \mathbf{s}_{i-1}\right]\right)$

$v_{a}$和$W_{a}$为可训练的参数，$v_a$将计算结果变成一个scalar，h与s之间的分号表示将二者concatenate到一起，产生一个更长的vector，然后和$W_a$做矩阵乘法。最后再把得到的value一起送往softmax层，进而产生一个符合概率分布的attention。

乘法Attention

$\Gamma\left(h_{j}, s_{i-1}\right)=h_{j}^{\top} \mathbf{W}_{a} s_{i-1}$

将加法和乘法排列组合变换，就能得到另一种方式——多重感知机(multi-layer perceptron)

$\Gamma\left(h_{j}, s_{i-1}\right)= MLP(h_{j},s_{i-1})$

在代码实现中，运用矩阵运算，可以大大加速计算，这里的$h_{j}$不再是单个vector，而是$h_{1}\sim h_{t}$组成的一个矩阵$M$，与$s_{i-1}$一同计算后，得到了一个长度为$t$的vector $\alpha_{i}$，它代表着在生成$y_{i}$时，对$h_{1}\sim h_{t}$分配的注意力权重。

下图展示了在文本生成式摘要时，注意力的分配

Attention机制的本质思想

我们可以这样来看待Attention机制：将Source中的构成元素想象成是由一系列的数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，可以得到每个Key针对该Query，Value的分配到的权重系数，然后对所有Key的Value进行加权求和，便得到了最终的Attention值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。即可以将其本质思想改写为如下公式：

$Attention(Query, Source) = \sum_{i}^{L_{x}}Similarity(Query, Key_{i}) \cdot Value_{i}$

上式，$L_{x}$代表Source的长度。上文所举的机器翻译的例子里，因为在计算Attention的过程中，Source中的Key和Value其实是同一个东西，即输入句子中每个单词对应的语义编码，所以可能不容易看出这种能够体现本质思想的结构。

当然，从概念上理解，把Attention仍然理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息，这种思路仍然成立。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。

也可以将Attention机制看作一种软寻址(Soft Addressing)：Source可以看作存储器内存储的内容，元素由地址Key和值Value组成，当前有个Key=Query的查询，目的是取出存储器中对应的Value值，即Attention值。通过Query和存储器内元素Key的地址进行相似性比较来寻址。之所以说是软寻址，是因为不像一般寻址只从存储内容里面找出一条内容，而是从每个Key地址都可能会取出内容，取出内容的重要性根据Query和Key的相似性来决定，之后对Value进行加权求和，这样就可以得到最终的Value值，也即Attention值。

Attention机制的具体计算过程，如果对目前大多数方法进行抽象的话，可以将其归纳为两个过程：第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。而第一个过程又可以细分为两个阶段：第一个阶段根据Query和Key计算两者的相似性或者相关性；第二个阶段对第一阶段的原始分值进行归一化处理；这样，可以将Attention的计算过程抽象为下图展示的三个阶段。

在第一个阶段，可以引入不同的函数和计算机制，根据Query和某个Keyi，计算两者的相似性或者相关性，最常见的方法包括：求两者的向量点积、求两者的向量Cosine相似性或者通过再引入额外的神经网络来求值，计算公式分别如下：

$\begin{aligned} Similarity(Query, Key_{i}) &= Query^{\top}\cdot Key_{i} \\ Similarity(Query, Key_{i}) &= \frac{Query^{\top}\cdot Key_{i}}{||Query||\cdot ||Key_{i}||} \\ Similarity(Query, Key_{i}) &= MLP(Query，Key_{i}) \end{aligned}$

接着将得到的数值进行数值转换，一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。一般采用如下公式计算：

$\alpha_{i} = Softmax(Sim_{i}) = \frac{e^{Sim_{i}}}{\sum_{j}^{L_{x}}e^{Sim_{j}}}$

最后得到Query关于Source的加权后的Value值：

$Value(Query，Source) = \sum_{i}^{L_{x}}\alpha_{i}\cdot Value_{i}$