人の発話内容を解析し文字情報としてテキスト化する技術。
AI技術の進化に伴い、精度が飛躍的に進歩している。
アップル社のSiriやAmazon社のアレクサ、Google社のGoogleアシスタントにも音声認識が利用されている。
現在の音声認識は、「DNN-HMM型」と「End-to-End型」の2種類に大別される。
多くの音声認識システムで採用されているのが「DNN-HMM型」。
音声認識のデメリットとしては、複数人で利用した場合の認識が難しいことや、正確な文章にならない場合もあること、マイクの感度によっては音声を聞き取れない場合もあるなどが挙げられる。