【マルチモーダル学習】画像中の音の発生源を可視化するAI
Ledge.ai
130Picks
コメント
選択しているユーザー
比屋根さんのおっしゃる通り、話者認識に使えるとビジネス展開できそうですね。
議事録作成の自動化は、いろんなツールが出てきていますが、まだまだ自動化には遠い段階です。なぜなら、複数の話者がいる場合の認識難易度が、単独話者の場合と比べて飛躍的に難しいためです。
複数話者がいるときに、音源の方向と顔認識を組み合わせれば、音声を人に紐づけることができて、議事録の自動作成にかなり近づきます。さらに、議事録だけではなく、あらゆるSpeech to Textに利用できるので、マーケット規模はかなり大きいでしょう。
360°の集音マイクのコスト低減と、音声が被ったときの分離にさらなるハードルがありそうですが。
注目のコメント
映像中の音源位置の可視化は面白い課題です。
教師無しでここまで出来るとは。
実際の応用としては、いくつか考えられます。
例えば、情景描写文の生成に使えます。「馬車がゴトゴトと走り去っていった」とか「赤ちゃんがウェーンと泣き続けている」とか。
また、複数の人が会話するところを音声認識する際に、誰が発話したか映像から判別できます。話者認識できると、その方向にマイクの焦点を当てて、ノイズを減らすことができ、音声認識率が向上できます。「カクテルパーティー効果」と呼ばれる、大人数のパーティーでの雑談から、興味ある会話だけを選択して聞き取る人間の能力を、この技術で実現できるかも。
=参考=
私たちの脳は面白い! 「カクテルパーティー効果」に見る上手な意識の使い方
https://m.huffingtonpost.jp/lealta/post_7893_b_5533026.html