過学習とは、学習データに対して適合しすぎて未知のデータに対する汎化性能が失われた状態をいう。
データに対する精度が横ばい、または、低下する場合は、過学習を疑う。
<過学習になりやすいのは?>
●モデルが複雑であるほど、過学習しやすい。
●データ数が少ないのに、特徴量(説明変数)の数が多すぎる。
●相関が強い特徴量が多く存在する。
●パラメータが大きすぎる。
●決定木は過学習しやすいモデル。
<過学習への対策>
●学習データ数を増やす。
●ハイパーパラメーターを調整して、モデルの複雑さを抑える。
●正則化する。
●オートエンコーダによる情報圧縮は、過学習の防止に効果的(事前学習に活用)。
過学習になりやすいのは、バイアスが低くてバリアンスが高いとき。
◎バイアス=推定値と実測値の差
◎バリアンス=推定値のばらつき
※バイアスとバリアンスはトレードオフの関係
<分類の過学習>
黒実線が汎用的な分類モデル。青の曲線が過学習モデル。

<回帰の過学習>
黒直線が汎用的な回帰モデル。青の曲線が過学習モデル。
