新着Pick
1066Picks
Pick に失敗しました

人気 Picker
日本語でこんなにスムーズに音声変換できるんだ。リアルタイムで修正しながら文字起こししていく様子に、驚きました。

この開発に携わったサガールさんの祖母も、加齢により耳が遠くなり、夕食時の会話に参加できなくなっていたそうです。でも、リアルタイムで文字起こしできるこのアプリを使って、再び会話を楽しめるようになったとか。

「今まで祖母は僕がグーグルという会社で何をやっているのか分からなかったようだけど、僕の仕事を初めて理解してくれた瞬間だったよ」と嬉しそうに話す姿が印象的でした。
ちょっとギョッとするレベルです。Googleの「音声」と「言葉」の領域における、テクノロジーの進化には驚かされることばかりです。特に2019年2月に発表した、リアルタイムで「音声文字変換」をするこのアプリは、日本語でもかなりの精度で動いてくれます。

私もここ1年くらいで、取材インタビューなどでは、音声認識のソフトウェアを使って自動的に文字起こしをするような方法をかなり使うようになりました。Googleのアプリは今年5月以降、テキストデータが保存できるようになり、いよいよビジネス上の強力なツールになりつつあります。

百聞は一見にしかず。Androidのスマートフォンを使っている方は、一度お試しすることをすすめます。
議事録作成の海に溺れたことのあるコンサルタント若手を過ごした人からするとずっと夢だったツールがついに実用に近づいている、という感じですね。ただ、そうなると仕事が楽になるかと言えば、より付加価値の高い、議論の構造化やそこからの示唆だしが人間には求められるということで、「より生産性の高い作業に集中できる」といえば素敵ですが、「作業に逃げることが出来ないので、人間の間の能力差が明らかになりやすい」という厳しい環境が待っている、とも言えそうです
先日、ICレコーダーで録った音声をPCに吸い上げて、PC内で再生しながら、Chrome上でGoogleのWebアプリで文字起こしをしてみましたが、なかなか正しいテキスト変換はされなかったですね。

たった二人しかいない打ち合わせでしたが、マイクに向かって話しているのではないので、入力される音声がイマイチなんですよ。このスピッツの歌のようにマイクに向かって話せば、キレイに認識されるんですけどね。

なので、議事録に使いたいなら、一人一人がマイクに向かって話すような形の会議でないと駄目かもしれませんね。とは言え、同じGoogleとは言え、このライブスクライブではないので、エンジンが違うのかもしれません。今度、アプリを試してみます。

【追記】アプリを試しましたが、スマホのマイクに向かって話さない限り、まともに認識しなかったですね。例えばテレビの音声はかなり音圧が高くないと認識しませんでした。バックグラウンドノイズが少なく、声だけであれば、だいぶ認識してくれますが。


アプリのレビューを見ると、聴覚障害の方々が重宝しているようですね。このような取り組みは、本当に素晴らしいと思います。
日本語でここまでスピーディにテキスト化できるとは。アルファベットは簡単ですが、日本語のニュアンスまで聞き分ける能力はすごい。

MaaS 決済も音声に依存するところが多いけれど、正確に聞き取ってくれれば、利用が増える。進化が楽しみです。
最近音声認識をいくつか検証しました。
現時点でGoogleが最強ではありますが、かなり音質次第で精度が大きく劣化します。音質はマイク+音響環境で決まります。良いマイクを近づけるだけで、精度はかなり向上します。

それから音声認識の精度が100%に近づいても、議事録には程遠いことは気をつけた方がよいです。必要な情報を取り出す作業はまだ人の仕事です。もっともそれも時間の問題ではありますが。

コンサルタントから議事録作成を早く解放してあげたいものです。
今まで記事を書く際に音声入力に何度もチャレンジし、何度も諦めて来ましたがいよいよ使えるかもですね。それに伴い、多言語同士のリアルタイム翻訳もより楽しみになります。
この間、試してみて精度高いなと思っていましたが、仕組みがなっているとは。これからの高齢化社会の課題解決にもなりそう。
おお!
ついにベータ版だけでなくなったのですね!

早速試してみましたが、上手な使い方がよくわかりません。

どなたか、教えていただけないでしょうか?
音声認識に限らず、インフラとしてのAIは大部分をGAFAが持っていくと予想してます。

この精度はすごいですが、ではこれをどんなアプリケーションに応用できるかの工夫が問われているので、日本のAIエンジニアのみなさんにはぜひチャンスと思って果敢にトライしていただきたい。