• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

【マルチモーダル学習】画像中の音の発生源を可視化するAI

Ledge.ai
130
Picks
このまま本文を読む
本文を読む

コメント


のアイコン

注目のコメント

  • badge
    三菱総合研究所 執行役員兼研究理事 生成AIラボセンター長

    映像中の音源位置の可視化は面白い課題です。
    教師無しでここまで出来るとは。

    実際の応用としては、いくつか考えられます。
    例えば、情景描写文の生成に使えます。「馬車がゴトゴトと走り去っていった」とか「赤ちゃんがウェーンと泣き続けている」とか。
    また、複数の人が会話するところを音声認識する際に、誰が発話したか映像から判別できます。話者認識できると、その方向にマイクの焦点を当てて、ノイズを減らすことができ、音声認識率が向上できます。


  • メトロエンジン 取締役COO 兼 チーフデータサイエンティスト

    比屋根さんのおっしゃる通り、話者認識に使えるとビジネス展開できそうですね。

    議事録作成の自動化は、いろんなツールが出てきていますが、まだまだ自動化には遠い段階です。なぜなら、複数の話者がいる場合の認識難易度が、単独話者の場合と比べて飛躍的に難しいためです。

    複数話者がいるときに、音源の方向と顔認識を組み合わせれば、音声を人に紐づけることができて、議事録の自動作成にかなり近づきます。さらに、議事録だけではなく、あらゆるSpeech to Textに利用できるので、マーケット規模はかなり大きいでしょう。

    360°の集音マイクのコスト低減と、音声が被ったときの分離にさらなるハードルがありそうですが。


  • badge
    旅する魔法使い

    「カクテルパーティー効果」と呼ばれる、大人数のパーティーでの雑談から、興味ある会話だけを選択して聞き取る人間の能力を、この技術で実現できるかも。

    =参考=
    私たちの脳は面白い! 「カクテルパーティー効果」に見る上手な意識の使い方
    https://m.huffingtonpost.jp/lealta/post_7893_b_5533026.html


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか