ソフトバンク、AIで手話を文字に　健聴者と自然に対話

日本経済新聞

・2021/09/03

Picks

このまま本文を読む

本文を読む

注目のコメント

山崎俊彦
東京大学大学院情報理工学系研究科電子情報学専攻　教授
・2021年09月03日
「単語ごとに複数のパターンを学習したAIは9割以上の精度で翻訳するが、学習が不十分だと5割を切る場合もある。正確に認識するには、1単語あたり100人以上の動作を読み込ませる必要があるという。」

とのことですが、一方で手話を自動生成するエンジンもあるといいます。ちょうど将棋や囲碁のAIが互いに対戦することで賢くなったように、生成エンジンと認識エンジンを相互に訓練することで効率よく学習を進められる気がします。
シバタアキラ
Weights & Biases カントリーマネージャー
・2021年09月03日
どういうシチュエーションを想定してるんでしょうね。パソコン越しならばチャットに打ち込んだほうが早いでしょうし。現場での会話であるならば、UX開発がが結構大変そうだ。手話をやっている人を携帯で撮影しながら会話？
暦本純一
東京大学情報学環教授「妄想する頭思考する手」
・2021年09月08日
とくにオンライン社会では、相手が英語で喋っていようが手話で喋っていようがリアルタイム翻訳で自分の好きな形態に変換する時代がすぐ近くに来ていると言えます。

学習データの作成が課題のようですが、音声認識研究では、いかにして教師データを少なくするかの「自己教師型学習」の研究が盛んで、ついに完全教師レスなものも登場しています。ある言語のラベルがついていない音声ファイルと、その言語のテキストがあれば学習する（両者の対応は取る必要がない）方式が提案されています。それが応用できれば、大量の手話ビデオがあれば自動学習ができそうです。
参考：Unsupervised Speech Recognition　https://arxiv.org/abs/2105.11084

.css-5ddv2h{font-feature-settings:'palt';letter-spacing:0.06em;}ソフトバンク、AIで手話を文字に 健聴者と自然に対話

コメント

注目のコメント

ソフトバンク、AIで手話を文字に　健聴者と自然に対話