・データをモデルに正しく入力できるようにする
・データの大きさをある程度均一にする

といった、モデルを用いてデータを扱うための準備や、学習・予測がうまくいくようにするための工夫である。

データの前処理には以下のようなものがある。
・欠損値の処理、補間(空欄のあるデータを消去、補間する)
・名寄せ(アンケート結果などの表記揺れを統一する)
・正規化(データをスケーリングする)
・標準化(平均を0、分散を1にする)
・時系列データの時間粒度の変更
・画像データのサイズ統一化、グレースケール化
・テキストデータの分かち書き、不要文字の削除、半角全角の統一

機械学習を行う際は、前処理にかなりの労力を割くのが一般的。