教師なし学習のひとつ。
特定のルールに基づき、データセットをいくつかのグループ(クラスタ)に分類すること。
例)顧客情報をクラスタリングして顧客をグループ分け(セグメンテーション)し、同じグループ内で同じ商品が複数回購入された場合、その顧客と同じグループに属している他の人たちにも同じ商品をレコメンドする。
計算量が多いというデメリットがある。
〇ハードクラスタリング
データがひとつのグループのみに所属するようにグループ分けするもの。
〇ソフトクラスタリング
データが複数のグループに所属することを許容してグループ分けするもの。
(ソフトクラスタリングは、データがグループに所属する確率を割りあてる。)
〇階層的クラスタリング
データ間の類似度が近いものからグループ分けするもの。
データの類似度が遠いものから離していく手法。
〇非階層的クラスタリング
「グループ分けの良さを表現する関数」を定義した上で、反復的に計算していくことによって、関数が最適となるグループに分ける手法。
〇群平均法
2つのクラスタを構成するデータの全組み合わせの距離を求めた上で、その平均をクラスタ間の距離とする手法。
全組み合わせの距離の平均を用いるので、クラスタ内に外れ値があった場合でも影響を受けにくい。
クラスタが帯状に連なってしまう鎖効果が起こりにくい。
〇ウォード法
データの平方和(それぞれのデータと平均値の差を二乗した値の和)を求めた上で、平方和が小さい順にクラスタを作る手法。
平方和はデータのバラつきを示すものでもあるため、「平方和が大きい=データのばらつきが大きい」、「平方和が小さい=データのばらつきが小さい」。
平方和はデータのバラつきを示すものでもあるため、「平方和が大きい=データのばらつきが大きい」、「平方和が小さい=データのばらつきが小さい」。
〇最短距離法(単連結法)
2つのクラスタ間で最も近いデータ同士の距離を「クラスタ間の距離」とする手法。
群平均法と同様に、クラスタを構成する要素同士の距離をすべて求めた上で、最も距離の短い組み合わせを選択し、その値をクラスタ間の距離とする。
群平均法と同様に、クラスタを構成する要素同士の距離をすべて求めた上で、最も距離の短い組み合わせを選択し、その値をクラスタ間の距離とする。
メリットは、ウォード法よりも計算量が少ない点。デメリットは外れ値に弱い点。
〇最長距離法(完全連結法)
最短距離法とは逆の方法で行う手法。
クラスタを構成している要素同士のすべての距離の中で、最も距離が長いものをクラスタ間の距離とする。
クラスタを構成している要素同士のすべての距離の中で、最も距離が長いものをクラスタ間の距離とする。
メリットは計算量が少ない点。デメリットは外れ値に弱い。