ツリー(樹形図)によってデータを予測するモデル。
分類(分類木)にも回帰(回帰木)にも使える。
機械学習や統計、マーケティングや意思決定などさまざまな分野で用いられている。
decisiontree
学習データにある特徴量を軸に、データをソートして複数のグループに分割する。
分割後の最下段の各ノードが、なるべく同じ属性のデータのみで構成されるような分割軸と閾値を目指す。
ノード内のデータがすべて同じクラスに属している状態がベスト。
つまり、ノード内の不純度を最大限減らす
特徴量と閾値の組み合わせは、決定木のアルゴリズムによって自動的に最適化される。
うまく分割できているかを確認するための純度の指標は、ジニ不純度エントロピー(情報の乱雑さを意味する量)を用いる。

<決定木のメリット>
決定木は特徴量が扱いやすく、仕組みを可視化することができるため、どのような基準で分割されたのかを説明したり改善したりしやすい。
モデル構築時の自由度も高い。

<決定木のデメリット>
過学習しやすい。
データに含まれる外れ値やノイズに影響されやすく、データ分割に偏りが生じやすい。
特にデータ量に対して特徴量の数が多いときに発生しやすい。
アンサンブル学習ランダムフォレスト(バギング)は、過学習を軽減できる。

<情報利得の最大化>
決定木がデータを分割する上での目標は、情報の利得が最大になるような特徴量と閾値の組み合わせを最適化することである。
データクラスの不純度が低くなれば、利得の値は大きくなる。

<二乗誤差関数の最小化>
決定木を回帰問題に用いる場合の基準のひとつ。