プレミアムを無料で体験

【マルチモーダル学習】画像中の音の発生源を可視化するAI

Ledge.ai

・2019/07/16

130

Picks

このまま本文を読む

本文を読む

コメント

のアイコン

選択しているユーザー

Kosaka Sho
メトロエンジン取締役COO 兼チーフデータサイエンティスト
・2019年07月16日
比屋根さんのおっしゃる通り、話者認識に使えるとビジネス展開できそうですね。

議事録作成の自動化は、いろんなツールが出てきていますが、まだまだ自動化には遠い段階です。なぜなら、複数の話者がいる場合の認識難易度が、単独話者の場合と比べて飛躍的に難しいためです。

複数話者がいるときに、音源の方向と顔認識を組み合わせれば、音声を人に紐づけることができて、議事録の自動作成にかなり近づきます。さらに、議事録だけではなく、あらゆるSpeech to Textに利用できるので、マーケット規模はかなり大きいでしょう。

360°の集音マイクのコスト低減と、音声が被ったときの分離にさらなるハードルがありそうですが。

注目のコメント

比屋根一雄
三菱総合研究所執行役員兼研究理事生成AIラボセンター長
・2019年07月16日
映像中の音源位置の可視化は面白い課題です。
教師無しでここまで出来るとは。

実際の応用としては、いくつか考えられます。
例えば、情景描写文の生成に使えます。「馬車がゴトゴトと走り去っていった」とか「赤ちゃんがウェーンと泣き続けている」とか。
また、複数の人が会話するところを音声認識する際に、誰が発話したか映像から判別できます。話者認識できると、その方向にマイクの焦点を当てて、ノイズを減らすことができ、音声認識率が向上できます。
佐々木励
AI Venture - AI Brain Explorer
・2019年07月16日
「カクテルパーティー効果」と呼ばれる、大人数のパーティーでの雑談から、興味ある会話だけを選択して聞き取る人間の能力を、この技術で実現できるかも。

=参考=
私たちの脳は面白い！「カクテルパーティー効果」に見る上手な意識の使い方
https://m.huffingtonpost.jp/lealta/post_7893_b_5533026.html

マイニュースに代わり
フォローを今後利用しますか