ソフトバンク、AIで手話を文字に 健聴者と自然に対話
コメント
選択しているユーザー
あ、この技術めっちゃいいですね!
ソフトバンクがAIで手話をテキストに変換することで健聴者と会話ができるようにする、という記事です。
コメントの中に「オンラインを利用するのであれば、手話を使わずにテキストで打てばいい」という意見もありますが、それは違います。
例えばZOOMを行う際、健聴者は「しゃべる」「テキスト」という選択肢があります。
難聴者は「テキスト」しかありません。
実際にAIを導入し活用するかどうか以上に、難聴者に多くの選択肢があることが重要です。
健聴者もZOOM中、意思疎通方法として、会話禁止で「テキストのみ」となればストレスが溜まります。
難聴者は普段手話を利用しています。
普段利用している手段を「利用できない」ことで相当の負担がかかっています。
選択肢が増えること、とても素晴らしいことですね。
▼まとめ
・ソフトバンクは2024年度にも、人工知能(AI)が手話を日本語に翻訳する技術を実用化
・スマートフォンなどで最短1秒以内に翻訳
・手話ができない健聴者と聴覚障害者が直接対話しやすくする
・5000語への対応をめざす
注目のコメント
「単語ごとに複数のパターンを学習したAIは9割以上の精度で翻訳するが、学習が不十分だと5割を切る場合もある。正確に認識するには、1単語あたり100人以上の動作を読み込ませる必要があるという。」
とのことですが、一方で手話を自動生成するエンジンもあるといいます。ちょうど将棋や囲碁のAIが互いに対戦することで賢くなったように、生成エンジンと認識エンジンを相互に訓練することで効率よく学習を進められる気がします。どういうシチュエーションを想定してるんでしょうね。パソコン越しならばチャットに打ち込んだほうが早いでしょうし。現場での会話であるならば、UX開発がが結構大変そうだ。手話をやっている人を携帯で撮影しながら会話?
とくにオンライン社会では、相手が英語で喋っていようが手話で喋っていようがリアルタイム翻訳で自分の好きな形態に変換する時代がすぐ近くに来ていると言えます。
学習データの作成が課題のようですが、音声認識研究では、いかにして教師データを少なくするかの「自己教師型学習」の研究が盛んで、ついに完全教師レスなものも登場しています。ある言語のラベルがついていない音声ファイルと、その言語のテキストがあれば学習する(両者の対応は取る必要がない)方式が提案されています。それが応用できれば、大量の手話ビデオがあれば自動学習ができそうです。
参考:Unsupervised Speech Recognition https://arxiv.org/abs/2105.11084