G検定カンペ用語集

自分用G検定用チートシート。

2023年06月


BERTと並ぶ有名な事前学習モデル。
OpenAIが開発。

エンコーダーを持たず、トランスフォーマーのデコーダと似た構造を持つネットワークを用いて、過去の単語列から次の単語を予測するように学習する。
文章の内容や背景を学習する上で高い性能を発揮。
以下のような「言語理解タスク」に対応できる。

●入力された分がPositiveかNegativeかNeutralかを判定する「評判分析(Sentiment Analysis)」。
一般的な文章分類に利用される。

●与えられた2つの文のないように矛盾があるか、一方が他方を含意するのかなどを判定する「自然言語推論(Natural Language Inference NLI)」。
関係認識ともいう。

●文章とこれに関する質問文が与えられた時、適切な回答を選択肢の中から選ぶ「質問応答(Question Answer)」。
常識推論ともいう。

●2つの文が同じ意味かどうか判定する「意味的類似度(Semantic Similarity)。」




事前学習モデル(Pre-Trained Models)のひとつ。
BERT(Bidirectional Encoder Representation from Transformers)は汎用的な学習済み自然言語モデルの先駆者。
2018年Google社によって提案された。

内部でBidirectional Transformerモデルを活用。
トランスフォーマーをエンコーダに用い、過去と未来の双方向の情報を同時に使用できる。
大量のデータを用いる「事前学習」と比較的少量のデータを用いて新しいタスクに適用する「ファインチューニング」の2段階からなる。

「事前学習」では、Masked Language Model(MLM)と、Next Sentence Prediction(NSP)という2つのタスクを巨大なコーパスを用いて実行する。
MLMは、文章中の単語の一部をマスクした状態で入力し、モデルにマスクされた単語を予測させる。
NSPは、2つの文を統合した状態で入力し、2つの文が連続する分かどうか予測させる。

BERTのブレークスルー
①過去・未来の双方向からの文脈解釈により、forのような文と文を結ぶ単語処理が可能になった。
②転移学習によってそのモデルのアーキテクチャを修正しなくても様々なタスクに応用できる。
③アノテーション(ラベル付け作業)コストが大幅に減少した。

BERTのパラメータは3億くらいあったが、削減の工夫が行われた。
2019年に軽量版であるALBERTやDistiBERTが出た。

Microsoft社からは、ロジックはBERTを参考にし、性能はBERT以上であるMT-DNN(Multi-task deep Neural Network)が発表されている。




入力(Query)と出力(Memory)が違う言葉で構成されているAttention。

ニューラル機械翻訳モデルは、一時期、2つのRNNで構成されたエンコーダ・デコーダモデルをAttentionで「橋渡し」する構造だった。
「橋渡し」とは、入力文(Source)と出力文(Target)の間で単語間の関係性を算出することである。
ここに使われるAttentionが特に、Source-Target attentionと呼ばれる。



・特定の時刻の情報に重みを付加できない。
・長期にわたる依存関係を把握しにくい。

これらの問題を改善するために開発されたエンコーダ・デコーダモデルが、Attention機構(注意機構)である。
人間と似た感覚で、各時刻における情報の重みを反映することによって、必要な情報にだけ注意を向けて学習するメカニズムを内包する。
過去のそれぞれの時刻での隠れ層の状態を「記憶」し、その重みを計算し、最終的にはすべての隠れ層の状態の重みつき和を出力の計算に使う。

Attention機構によって、長文翻訳の精度が飛躍的に向上した。

デコーダモデルは、入力文章が長文になるにつれて解析精度が悪くなり、後半の時間ステップでは最初の情報を失ってしまう欠点があった。
それを改善するための工夫が、Attention機構やトランスフォーマーの技術である。



Source-Target Attentionが入力文と出力文の橋渡し役なのに対して、入力文・出力文の中の単語間の関連性を定量的に評価するモデル。

同じ文中の他の単語の分散表現とSelf-Attentionの値を同時に考慮しながら、注目単語の分散表現を更新する。
これにより文章中の文脈を考慮した適切な分散表現ができる。

また、単語間の関連性を単語ごとに並列に計算できて、単語間の関係性を高速に計算することが得意。
Self-Attentionでは一文のすべての単語間の関係を1ステップで計算する。

弱点は、単語の語順に関する情報を考慮できないこと。
トランスフォーマーでは、この問題の回避のために、位置エンコーディングという単語の位置を特定する情報を入力に付加する。


↑このページのトップヘ