・入力データを1時間ステップごとに処理する必要があり、並列処理できない。
・入力系列が長いと遠く離れた単語間の関係を正しくとらえにくくなる。
従来のRNN言語モデルの上記2つの課題を解決するために2017年に提案された。
現在もGoogleの機械翻訳の一部に採用されている。
RNNを使わずAttentionのみで構成されている。
エンコーダとデコーダに、RNNの代わりにSelf-Attentionを採用しており、入力と出力の橋渡しにSource-Target Attentionを使っている。
RNNを使わないので並列計算ができる。
並列化により、データ処理やモデルの学習も高速化できた。
Attentionの性能により、離れた位置にある単語同士の関係性が捉えやすくなった。
GPUを有効活用できる。