「AbemaTV」がAIで瞬時に字幕表示、テレビ朝日とシステム共同開発
日経 xTECH(クロステック)
297Picks
コメント
注目のコメント
すごいけど精度はどれぐらいなんだろう。Google の Cloud Speech-To-Text API をベースとしているとのことですが、まだ決して実用に耐えうるほどの精度ではなかったように思います。記事中に書かれている LASSIC Speech Recognition というのが非常に優秀なのだろうか。
いずれにせよ、特に Abema のように「ながら見」も想定している動画コンテンツにとって、字幕というのは非常に重要だと思うので(自分たちで動画番組を配信してみて初めて字幕の重要性に気付きました)、これは適切な技術投資という気がします。サイバーエージェントは本当に凄い会社だなぁ。
※ 追記
実際に見てみましたが思ったよりも精度良いですね。勿論まだ怪しいところもありますが、音無しでも十分ニュースが見れる印象です。ユーザーとして便利になるとかそういうことだけでなく、これが出来ると世界に提供できるようになりますよね。日本のコンテンツを世界に届けられるようになるとまた違ったAbemaTVの役割が生まれそうです。
GoogleのCloud Speech-To-Text APIを利用しているのですね。
料金は動画音声認識について、15秒あたり$0.012 米ドルとのことです。
https://cloud.google.com/speech-to-text/?hl=ja