事前学習モデル(Pre-Trained Models)のひとつ。
BERT(Bidirectional Encoder Representation from Transformers)は汎用的な学習済み自然言語モデルの先駆者。
2018年Google社によって提案された。
内部でBidirectional Transformerモデルを活用。
トランスフォーマーをエンコーダに用い、過去と未来の双方向の情報を同時に使用できる。
大量のデータを用いる「事前学習」と比較的少量のデータを用いて新しいタスクに適用する「ファインチューニング」の2段階からなる。
「事前学習」では、Masked Language Model(MLM)と、Next Sentence Prediction(NSP)という2つのタスクを巨大なコーパスを用いて実行する。
MLMは、文章中の単語の一部をマスクした状態で入力し、モデルにマスクされた単語を予測させる。
NSPは、2つの文を統合した状態で入力し、2つの文が連続する分かどうか予測させる。
BERTのブレークスルー
①過去・未来の双方向からの文脈解釈により、forのような文と文を結ぶ単語処理が可能になった。
②転移学習によってそのモデルのアーキテクチャを修正しなくても様々なタスクに応用できる。
③アノテーション(ラベル付け作業)コストが大幅に減少した。
BERTのパラメータは3億くらいあったが、削減の工夫が行われた。BERT(Bidirectional Encoder Representation from Transformers)は汎用的な学習済み自然言語モデルの先駆者。
2018年Google社によって提案された。
内部でBidirectional Transformerモデルを活用。
トランスフォーマーをエンコーダに用い、過去と未来の双方向の情報を同時に使用できる。
大量のデータを用いる「事前学習」と比較的少量のデータを用いて新しいタスクに適用する「ファインチューニング」の2段階からなる。
「事前学習」では、Masked Language Model(MLM)と、Next Sentence Prediction(NSP)という2つのタスクを巨大なコーパスを用いて実行する。
MLMは、文章中の単語の一部をマスクした状態で入力し、モデルにマスクされた単語を予測させる。
NSPは、2つの文を統合した状態で入力し、2つの文が連続する分かどうか予測させる。
BERTのブレークスルー
①過去・未来の双方向からの文脈解釈により、forのような文と文を結ぶ単語処理が可能になった。
②転移学習によってそのモデルのアーキテクチャを修正しなくても様々なタスクに応用できる。
③アノテーション(ラベル付け作業)コストが大幅に減少した。
2019年に軽量版であるALBERTやDistiBERTが出た。
Microsoft社からは、ロジックはBERTを参考にし、性能はBERT以上であるMT-DNN(Multi-task deep Neural Network)が発表されている。