機械学習モデルの予測性能(汎化性能)を向上させるために行う以下のような作業をいう。
・予測変数として採用する列を選別する
・データに前処理を施し、予測に効果的な形に加工する

特徴量エンジニアリングの出来具合が、機械学習モデルの精度を左右する。

<予測変数として採用する列を選別する>
例えば賃貸料を予測するとき、不動産データとして「築年数」「面積」「駅からの距離」「管理会社名」という変数と正解ラベルがあるとする。
「管理会社名」は予測したい賃貸料と関係はないので、予測モデル構築の特徴量には採用しない。

<データに前処理を施し、予測に効果的な形に加工する>
保険契約をするかどうかという予測モデルに、「未婚・既婚」「年収」「生年月日」「身長」という変数があったとき、「身長」は予測したい結果と関係が薄いので採用しないが、「生年月日」は「年齢」に変換することで意味のある変数となるので採用する。
「生年月日」を「年齢」に変換することは、「予測に効果的な形に加工する」ことに該当する。

生データそのままでは、理想的な特徴量を得られるとは限らない。
予測に影響を及ぼす因子を過不足なく含むデータを作り出す必要がある。

また特徴量エンジニアリングは、生データのままでは機械学習できない画像・音声・文字などを、表形式にまとまったパターン認識に変換する技術や研究手法としても用いられている。

特徴量エンジニアリングは、機械学習モデルを作成するワークフローの中で、非常に多くの割合(70%ほど)を締める。