おそらく講義音声を使っているということはマイクで取ったある程度クリアな音声がインプットデータなのだと想定されますが、現実の人間の認識は周囲の雑音などがある中での音声認識です。このAIがそういった周囲の環境も考慮した上で、その精度が出せるのであれば非常にスゴイなと思いますね。
マイニュースに代わりフォローを今後利用しますか