「Watson」にラジオ番組と会議録を聞かせてみた
コメント
注目のコメント
Siriなどの音声認識機能がスマホに載ったことで、音声認識はかなり身近な存在になりました。出たての頃の精度は高いとは言えず、それに嫌気がさして使っていない人もいるかもしれませんが、今はかなり精度が高まっています。Watsonはどこまで進化しているのか。今回は、簡単に試せるデモサイトを使った体験記事です。人と同じレベルでは当然ないかもしれませんが、いまどの程度の精度なのかを確かめてみるのにいいかもしれません。
会議の録音なんて普通に人が聞いても、よく誰の発言なのかわからない。NHKのアナウンサーが原稿を元に喋る日本語と会議などで使われる口語の日本語は文法に対する忠実度でかなりの開きがあるはず。ましてや滑舌や方言なんかが加わればなおさらでしょう。
同じspeechと言っても様々な点で違うと言っていいと思います。
とは言うもののいずれ人以上に区別し判別してしまうのでしょうね。音声データをテキスト化出来れば、テキストマイニングも他の分析も可能。さらなる認識精度の向上を期待したい。
予想どおり、アナウンサーの声だと認識率が高いようなので、当面はテキスト化の時には意識してわかりやすく喋ると良いかもしれない。機械に人が合わせるのは論外!と思う人がいるかもしれないが、Speech to Textだけでなく、機械にわかりやすく振る舞うことは人に対しても優しく振る舞うことと同じだ。はっきりと聞き取りやすいスピードで話すことで、人にももっと伝わるようになるだろう。
次なる期待はテキスト情報だけでなく、その時の抑揚などからその裏にある感情を読み取ること。Watson裏ではそのために必要な情報を得ているようなので、そんなに遠くない将来、それも機能として加わって来るのではないか。