【本格ブレイク】「自動文字起こしサービス」が秘める可能性

2019/10/25
精度は「最大95%」
サム・リャンは、2001年に他界した母にもう一度会いたいと話す。せめて、彼が高校生のときに母から聞いた言葉をそっくり思い出せたら、と。
「母が恋しくてたまりません。それは人生で何物にも代えがたい瞬間でした」
シリコンバレーのスタートアップ「Otter.ai」の共同創設者でCEOであるリャンは、そのようなことが可能になる未来を目指している。彼の会社は音声を自動認識してテキスト化するサービスを提供している。精度が高く、ジャーナリストや学生、企業などの間で引っ張りだこのサービスだ。
いまや音声の自動文字起こしは夢のような話ではなくなった。人間の話し言葉を大量に記録することにより、ニューラルネットワークを用いたプログラムは、口語を最大95%まで正確に認識できるようになっている。
データ保存コストの下落も相まって、数年前までは不可能だったことが今は可能になっている。
スタンフォード大学で電子工学を学んだリャンは、グーグルマップの開発メンバーの一人だ。リャンによれば、人間が人生で話したすべての言葉は、わずか2テラバイトのデータに圧縮することが可能だという。50ドル以下のストレージデバイスにも収まってしまう量だ。
「Otter.ai」創業者のサム・リャン(右)とユン・フー(Jim Wilson/The New York Times)
企業は従業員の会話に興味津々