G検定カンペ用語集

自分用G検定用チートシート。

2022年05月


バッチ正規化の改善版。
画像1枚単位で、チャンネル単位でバッチ正規化を行う。
バッチサイズが小さいとき、画像スタイル変換を行うときに有効な手法である。




バッチ正規化の改善版。
正規化方向をチャンネル方向から層方向に変更し、現在の層の値すべてだけで正規化する。
TransformerやBERTなどの自然言語処理むけのRNN言語モデル・系列対系列変換モデルにおいて、よく使用される。




手書き数字画像60,000枚と、テスト画像10,000枚の画像データセット。
手書きの数字「0〜9」に正解ラベルが与えられるデータセットでもある。
さまざまな画像処理システムの学習に広く使用される、人気の高いデータセット。
機械学習の入門のデータセットとしてもよく使用されている。



画像認識研究のための研究用標準データセット。
対象は、自然画像。
1,400万枚を超える画像に対し、何が写っているかを2万種以上のラベルで示してある。

ILSVRCという画像認識コンペティションでは、ImageNetのデータセットから訓練用120万枚、ラベル種1000個が使用された。


他の画像データセットとしては、手書き文字を対象とするMNIST(エムニスト)も有名。


ICLR 2016で発表された論文(Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks)で提案された敵対的生成ネットワークの一種。
GANでは生成画像がぼやけていたが、より鮮明な画像が生成できるようになった。

GAN同様、ジェネレーターとディスクリミネーターを競わせるように学習する。
ジェネレーターとディスクリミネーターそれぞれのネットワークに、全結合層ではなく畳み込み層・転置畳み込み層を使用している点がGANと異なる。
バッチ正規化を導入し、tanh, ReLULeaky ReLUといった活性化関数を使うことで、学習を安定化している。

DCGANの派生形として、Least Square GAN(識別ネットワークの最終層の活性化関数である標準シグモイド関数を無効化し、損失関数を平均二乗誤差に置き換えたもの。通常のDCGANに比べ、安定性が大幅に上昇。)やWasserstein GAN(識別ネットワークをワッサースタイン距離関数に近づけるため、重みのクリッピング及び損失関数の再設計を行い、識別ネットワークのリプリッツ連続性を担保する手法。通常のDCGAN、LSGANに比べ、クオリティの高い画像が生成された。)、Progressive Growing GAN(WGANをさらに発展させ、ミニバッチ内の標準偏差を算出する機構を識別ネットワークに導入し、さらに識別ネットワーク・生成ネットワークの両方を複数の段階に分割して学習をするようにしたもの)などがある。


↑このページのトップヘ