• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

【マルチモーダル学習】画像中の音の発生源を可視化するAI

Ledge.ai
130
Picks
このまま本文を読む
本文を読む

コメント


のアイコン

選択しているユーザー

  • メトロエンジン 取締役COO 兼 チーフデータサイエンティスト

    比屋根さんのおっしゃる通り、話者認識に使えるとビジネス展開できそうですね。

    議事録作成の自動化は、いろんなツールが出てきていますが、まだまだ自動化には遠い段階です。なぜなら、複数の話者がいる場合の認識難易度が、単独話者の場合と比べて飛躍的に難しいためです。

    複数話者がいるときに、音源の方向と顔認識を組み合わせれば、音声を人に紐づけることができて、議事録の自動作成にかなり近づきます。さらに、議事録だけではなく、あらゆるSpeech to Textに利用できるので、マーケット規模はかなり大きいでしょう。

    360°の集音マイクのコスト低減と、音声が被ったときの分離にさらなるハードルがありそうですが。


注目のコメント

アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか