• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能

345
Picks
このまま本文を読む
本文を読む

コメント


注目のコメント

  • badge
    三菱総合研究所 執行役員兼研究理事 生成AIラボセンター長

    音声通訳がまた一歩進んでますね。声質学習は日本語でもオルツ等いくつかあります。問題は何分で学習できるか。

    この次は抑揚やイントネーション、さらには口癖等の口調を学習です。これは方言対応でもあります。ここまで来れば、しばらく会話しても本人か気付かないでしょう。

    翻訳コンニャクは日本人の夢。期待したいです。

    もっともオレオレ詐欺やデジタル移民による雇用喪失等、負の側面にもそろそろ注意が必要ですが。


  • badge
    講談社 宣伝統括部担当部長

    当然そうなりますよね。
    テキスト、画像、映像、音声と広がる生成領域。
    本人のものであることを認める「認証」の価値が高まります。


  • badge
    Weights & Biases カントリーマネージャー

    STT (スピーチの書き起こし) についてはOpenAIが昨年Wisperという高精度のモデルをオープンソース化しており、ChatGPTの学習データを作る上でも活用されたと見られますが、TTSについてはまだ決定的なモデルは出てきていない状況です。日本語対応のモデルとなるとさらに選択肢はさらに狭まります。私の知る限りではLineの研究グループの取り組みが特に進んでいるという印象です。

    TTSにおいてはただのテキストとは異なり、発音やイントネーションなど、文字だけでは表現できない要素が多いことも研究の難易度を上げているところです。LLMモデルのネクストレベルとしてそういった発話のニュアンスも含めた音声データをそのまま学習するようなアプローチが実現する日がいずれは来ると期待されますが、まだそのような手法は確立されていません。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか