G検定カンペ用語集

自分用G検定用チートシート。

2023年10月


トレーニングデータとも。
教師あり学習や教師なし学習において、モデルのトレーニングに使うデータのこと。
学習データは例題と正解がペアになっており、例題のデータを入力すると正解のデータが出力されるようにモデルを訓練していく。

データの量や質によって、AIが導き出す判断や予測の正確さが決定する。
モデルの目的に対して十分な数の訓練データを準備することで、モデルの性能向上や汎用性を高められる。


ハイパーパラメータのグリッドサーチは、事前に設定したハイパーパラメータの各候補に対して交差検証で精度を測り、最も精度が高かったハイパーパラメータの組を最良のハイパーパラメータとして採用するという、ハイパーパラメータの探索手法のこと。
ハイパーパラメータの調節は手間のかかる作業であることが基本だが、グリッドサーチを用いれば、ある程度のプロセスが自動化できる。
指定したパラメータの組み合わせを網羅的に探索するので、最も高い精度が出るパラメータを確実に見つけ出すことができる半面、計算量が多くなるデメリットがある。


教師あり学習。
さまざまな対象を、決まったカテゴリー(クラス)に分けること。
ラベルのつけられたデータから法則を学習し、ラベルのないデータのラベル付けを自動で行う。
例)写真に写ったものが犬なのか猫なのかを分類する。

2クラス分類と多クラス分類がある。


教師なし学習のひとつ。
特定のルールに基づき、データセットをいくつかのグループ(クラスタ)に分類すること。

例)顧客情報をクラスタリングして顧客をグループ分け(セグメンテーション)し、同じグループ内で同じ商品が複数回購入された場合、その顧客と同じグループに属している他の人たちにも同じ商品をレコメンドする。

計算量が多いというデメリットがある。

〇ハードクラスタリング
データがひとつのグループのみに所属するようにグループ分けするもの。

〇ソフトクラスタリング
データが複数のグループに所属することを許容してグループ分けするもの。
(ソフトクラスタリングは、データがグループに所属する確率を割りあてる。)

〇階層的クラスタリング
データ間の類似度が近いものからグループ分けするもの。
データの類似度が遠いものから離していく手法。

〇非階層的クラスタリング
「グループ分けの良さを表現する関数」を定義した上で、反復的に計算していくことによって、関数が最適となるグループに分ける手法。

〇群平均法
2つのクラスタを構成するデータの全組み合わせの距離を求めた上で、その平均をクラスタ間の距離とする手法。
全組み合わせの距離の平均を用いるので、クラスタ内に外れ値があった場合でも影響を受けにくい。
クラスタが帯状に連なってしまう鎖効果が起こりにくい。
〇ウォード法
データの平方和(それぞれのデータと平均値の差を二乗した値の和)を求めた上で、平方和が小さい順にクラスタを作る手法。
平方和はデータのバラつきを示すものでもあるため、「平方和が大きい=データのばらつきが大きい」、「平方和が小さい=データのばらつきが小さい」。

〇最短距離法(単連結法)
2つのクラスタ間で最も近いデータ同士の距離を「クラスタ間の距離」とする手法。
群平均法と同様に、クラスタを構成する要素同士の距離をすべて求めた上で、最も距離の短い組み合わせを選択し、その値をクラスタ間の距離とする。
メリットは、ウォード法よりも計算量が少ない点。デメリットは外れ値に弱い点。

〇最長距離法(完全連結法)
最短距離法とは逆の方法で行う手法。
クラスタを構成している要素同士のすべての距離の中で、最も距離が長いものをクラスタ間の距離とする。
メリットは計算量が少ない点。デメリットは外れ値に弱い。


AIが機械学習に利用するデータ。
それぞれの例題に対応した正解が用意されているデータのこと。
例題に対して正解を出力させるための訓練を行う「教師あり学習」では、教師データが必要になる。

教師データはどのくらいの量が必要なのか? については、求める精度や利用するモデルなどによって異なるが、単純な画像の分類の場合、クラス(答え)ごとに1,000~10,000程度用意する必要がある。
従来の機械学習では、データの量をある程度増やすと精度が頭打ちになってしまうが、ディープラーニングではデータ量を増やしただけ性能が向上する。

↑このページのトップヘ