2023年10月31日 訓練データ(training data) トレーニングデータとも。教師あり学習や教師なし学習において、モデルのトレーニングに使うデータのこと。学習データは例題と正解がペアになっており、例題のデータを入力すると正解のデータが出力されるようにモデルを訓練していく。データの量や質によって、AIが導き出す判断や予測の正確さが決定する。モデルの目的に対して十分な数の訓練データを準備することで、モデルの性能向上や汎用性を高められる。 タグ :#G検定#カンペ
2023年10月30日 グリッドサーチ ハイパーパラメータのグリッドサーチは、事前に設定したハイパーパラメータの各候補に対して交差検証で精度を測り、最も精度が高かったハイパーパラメータの組を最良のハイパーパラメータとして採用するという、ハイパーパラメータの探索手法のこと。ハイパーパラメータの調節は手間のかかる作業であることが基本だが、グリッドサーチを用いれば、ある程度のプロセスが自動化できる。指定したパラメータの組み合わせを網羅的に探索するので、最も高い精度が出るパラメータを確実に見つけ出すことができる半面、計算量が多くなるデメリットがある。 タグ :#G検定#カンペ
2023年10月27日 クラス分類 教師あり学習。さまざまな対象を、決まったカテゴリー(クラス)に分けること。ラベルのつけられたデータから法則を学習し、ラベルのないデータのラベル付けを自動で行う。例)写真に写ったものが犬なのか猫なのかを分類する。2クラス分類と多クラス分類がある。 タグ :#G検定#カンペ
2023年10月26日 クラスタリング 教師なし学習のひとつ。特定のルールに基づき、データセットをいくつかのグループ(クラスタ)に分類すること。例)顧客情報をクラスタリングして顧客をグループ分け(セグメンテーション)し、同じグループ内で同じ商品が複数回購入された場合、その顧客と同じグループに属している他の人たちにも同じ商品をレコメンドする。計算量が多いというデメリットがある。〇ハードクラスタリングデータがひとつのグループのみに所属するようにグループ分けするもの。〇ソフトクラスタリングデータが複数のグループに所属することを許容してグループ分けするもの。(ソフトクラスタリングは、データがグループに所属する確率を割りあてる。)〇階層的クラスタリングデータ間の類似度が近いものからグループ分けするもの。データの類似度が遠いものから離していく手法。〇非階層的クラスタリング「グループ分けの良さを表現する関数」を定義した上で、反復的に計算していくことによって、関数が最適となるグループに分ける手法。〇群平均法2つのクラスタを構成するデータの全組み合わせの距離を求めた上で、その平均をクラスタ間の距離とする手法。全組み合わせの距離の平均を用いるので、クラスタ内に外れ値があった場合でも影響を受けにくい。クラスタが帯状に連なってしまう鎖効果が起こりにくい。〇ウォード法データの平方和(それぞれのデータと平均値の差を二乗した値の和)を求めた上で、平方和が小さい順にクラスタを作る手法。平方和はデータのバラつきを示すものでもあるため、「平方和が大きい=データのばらつきが大きい」、「平方和が小さい=データのばらつきが小さい」。〇最短距離法(単連結法)2つのクラスタ間で最も近いデータ同士の距離を「クラスタ間の距離」とする手法。群平均法と同様に、クラスタを構成する要素同士の距離をすべて求めた上で、最も距離の短い組み合わせを選択し、その値をクラスタ間の距離とする。メリットは、ウォード法よりも計算量が少ない点。デメリットは外れ値に弱い点。〇最長距離法(完全連結法)最短距離法とは逆の方法で行う手法。クラスタを構成している要素同士のすべての距離の中で、最も距離が長いものをクラスタ間の距離とする。メリットは計算量が少ない点。デメリットは外れ値に弱い。 タグ :#G検定#カンペ
2023年10月25日 教師データ(teaching data) AIが機械学習に利用するデータ。それぞれの例題に対応した正解が用意されているデータのこと。例題に対して正解を出力させるための訓練を行う「教師あり学習」では、教師データが必要になる。教師データはどのくらいの量が必要なのか? については、求める精度や利用するモデルなどによって異なるが、単純な画像の分類の場合、クラス(答え)ごとに1,000~10,000程度用意する必要がある。従来の機械学習では、データの量をある程度増やすと精度が頭打ちになってしまうが、ディープラーニングではデータ量を増やしただけ性能が向上する。 タグ :#G検定#カンペ