機械学習モデルの予測性能(汎化性能)を向上させるために行う以下のような作業をいう。
・予測変数として採用する列を選別する
・データに前処理を施し、予測に効果的な形に加工する
特徴量エンジニアリングの出来具合が、機械学習モデルの精度を左右する。
<予測変数として採用する列を選別する>
・予測変数として採用する列を選別する
・データに前処理を施し、予測に効果的な形に加工する
特徴量エンジニアリングの出来具合が、機械学習モデルの精度を左右する。
<予測変数として採用する列を選別する>
例えば賃貸料を予測するとき、不動産データとして「築年数」「面積」「駅からの距離」「管理会社名」という変数と正解ラベルがあるとする。
「管理会社名」は予測したい賃貸料と関係はないので、予測モデル構築の特徴量には採用しない。
<データに前処理を施し、予測に効果的な形に加工する>
「管理会社名」は予測したい賃貸料と関係はないので、予測モデル構築の特徴量には採用しない。
<データに前処理を施し、予測に効果的な形に加工する>
保険契約をするかどうかという予測モデルに、「未婚・既婚」「年収」「生年月日」「身長」という変数があったとき、「身長」は予測したい結果と関係が薄いので採用しないが、「生年月日」は「年齢」に変換することで意味のある変数となるので採用する。
「生年月日」を「年齢」に変換することは、「予測に効果的な形に加工する」ことに該当する。
生データそのままでは、理想的な特徴量を得られるとは限らない。
予測に影響を及ぼす因子を過不足なく含むデータを作り出す必要がある。
「生年月日」を「年齢」に変換することは、「予測に効果的な形に加工する」ことに該当する。
生データそのままでは、理想的な特徴量を得られるとは限らない。
予測に影響を及ぼす因子を過不足なく含むデータを作り出す必要がある。
また特徴量エンジニアリングは、生データのままでは機械学習できない画像・音声・文字などを、表形式にまとまったパターン認識に変換する技術や研究手法としても用いられている。