自然言語処理の分野で発展したTransformerを画像処理に流用したもの。
画像を単語のように分割することで、CNNを利用せず、Transformerに近いモデルを使用している。