Source-Target Attentionが入力文と出力文の橋渡し役なのに対して、入力文・出力文の中の単語間の関連性を定量的に評価するモデル。

同じ文中の他の単語の分散表現とSelf-Attentionの値を同時に考慮しながら、注目単語の分散表現を更新する。
これにより文章中の文脈を考慮した適切な分散表現ができる。

また、単語間の関連性を単語ごとに並列に計算できて、単語間の関係性を高速に計算することが得意。
Self-Attentionでは一文のすべての単語間の関係を1ステップで計算する。

弱点は、単語の語順に関する情報を考慮できないこと。
トランスフォーマーでは、この問題の回避のために、位置エンコーディングという単語の位置を特定する情報を入力に付加する。