ソフトバンク、AIで手話を文字に 健聴者と自然に対話
日本経済新聞
84Picks
コメント
注目のコメント
「単語ごとに複数のパターンを学習したAIは9割以上の精度で翻訳するが、学習が不十分だと5割を切る場合もある。正確に認識するには、1単語あたり100人以上の動作を読み込ませる必要があるという。」
とのことですが、一方で手話を自動生成するエンジンもあるといいます。ちょうど将棋や囲碁のAIが互いに対戦することで賢くなったように、生成エンジンと認識エンジンを相互に訓練することで効率よく学習を進められる気がします。どういうシチュエーションを想定してるんでしょうね。パソコン越しならばチャットに打ち込んだほうが早いでしょうし。現場での会話であるならば、UX開発がが結構大変そうだ。手話をやっている人を携帯で撮影しながら会話?
とくにオンライン社会では、相手が英語で喋っていようが手話で喋っていようがリアルタイム翻訳で自分の好きな形態に変換する時代がすぐ近くに来ていると言えます。
学習データの作成が課題のようですが、音声認識研究では、いかにして教師データを少なくするかの「自己教師型学習」の研究が盛んで、ついに完全教師レスなものも登場しています。ある言語のラベルがついていない音声ファイルと、その言語のテキストがあれば学習する(両者の対応は取る必要がない)方式が提案されています。それが応用できれば、大量の手話ビデオがあれば自動学習ができそうです。
参考:Unsupervised Speech Recognition https://arxiv.org/abs/2105.11084