2014年に発表された、一般物体認識のアルゴリズムの原型。
入力は画像データ、出力は画像内の各物体の領域を示すボックスとクラスラベルである。
①物体候補領域を、バウンディングボックスで切り出した後、画素粒度でグルーピングすることで物体らしき領域を見出す。
②すべてのボックスを統一的にリサイズする(CNNは固定サイズの入力のみ受けとるため)。
領域ごとに個別にCNNを呼び出し、画像から特徴量を算出する。
③CNNで求めた特徴量をSVMモデルによって学習し、クラス鑑別ができるモデルを構築する。
未知の画像が入力された場合は、学習時と同様にCNNで求めた特徴量をもとに学習済みのSVNモデルで分類する。