ダミー変数を用いた前処理。
カテゴリのデータを0か1かで表現する方法。
データが、グー、チョキ、パーの3種類に分かれていた場合に、以下のように0か1かで表現する。
グー →100
チョキ →010
パー →001
計算には数値データしか使用できないため、グー、チョキ、パーのような文字列を数値に置き換える必要がある。
カテゴリのデータを0か1かで表現する方法。
データが、グー、チョキ、パーの3種類に分かれていた場合に、以下のように0か1かで表現する。
グー →100
チョキ →010
パー →001
計算には数値データしか使用できないため、グー、チョキ、パーのような文字列を数値に置き換える必要がある。
one-hot-encodingを行うことで、データの特徴数(次元数)が増えてしまうというデメリットがある。
特徴数が増加すると、メモリが足りなくなる、次元の呪いが起こる可能性が上がる、計算量が増えるといった問題が生じる恐れがある。
特徴数が増加すると、メモリが足りなくなる、次元の呪いが起こる可能性が上がる、計算量が増えるといった問題が生じる恐れがある。