新着Pick
129Picks
Pick に失敗しました

人気 Picker
映像中の音源位置の可視化は面白い課題です。
教師無しでここまで出来るとは。

実際の応用としては、いくつか考えられます。
例えば、情景描写文の生成に使えます。「馬車がゴトゴトと走り去っていった」とか「赤ちゃんがウェーンと泣き続けている」とか。
また、複数の人が会話するところを音声認識する際に、誰が発話したか映像から判別できます。話者認識できると、その方向にマイクの焦点を当てて、ノイズを減らすことができ、音声認識率が向上できます。
比屋根さんのおっしゃる通り、話者認識に使えるとビジネス展開できそうですね。

議事録作成の自動化は、いろんなツールが出てきていますが、まだまだ自動化には遠い段階です。なぜなら、複数の話者がいる場合の認識難易度が、単独話者の場合と比べて飛躍的に難しいためです。

複数話者がいるときに、音源の方向と顔認識を組み合わせれば、音声を人に紐づけることができて、議事録の自動作成にかなり近づきます。さらに、議事録だけではなく、あらゆるSpeech to Textに利用できるので、マーケット規模はかなり大きいでしょう。

360°の集音マイクのコスト低減と、音声が被ったときの分離にさらなるハードルがありそうですが。
「カクテルパーティー効果」と呼ばれる、大人数のパーティーでの雑談から、興味ある会話だけを選択して聞き取る人間の能力を、この技術で実現できるかも。

=参考=
私たちの脳は面白い! 「カクテルパーティー効果」に見る上手な意識の使い方
https://m.huffingtonpost.jp/lealta/post_7893_b_5533026.html
音の発生源を把握して他の画像認識系のアノテーションとして利用することで様々なシーンで精度向上の応用ができそうですね。それだけ汎用的な情報源。考えてみれば人間も視覚情報に加えて音の発生源をインプットに判断してること多そうです。危機察知もそうですし。
韓国科学技術院のAIだそう。
本研究は「画像、音声といった全く異なるデータでも、その文脈情報を統一的に扱うことができる可能性を示せている」とのこと。