旅行用翻訳の定番に? 外国語看板を即座に翻訳、読み上げるGoogle Go発表
コメント
注目のコメント
ディープラーニングの得意分野である、自然言語処理と画像認識処理を組み合わせた、想像できる最高のものが形になったのではないでしょうか。
ディープラーニングによる自動翻訳の急速な発達の裏側には
は、自然言語処理における2018年の2大トピックとして注目された、新たな二つの手法による自然言語処理「ELMO」と「BERT」が記憶に新しいと思います。
一つ目の「ELMO」
この手法により、「雨」と「飴」や同じ文字列だが意味が異なる言葉を翻訳する際、文脈から判断して適切な意味を選択することが出来るようになりました。
二つ目は「BERT」
この手法では、自然言語処理タスクを教師データなしで、かつ双方向に事前学習することが出来るようになった。これにより、WEB上にある莫大な量のテキストデータが利用可能になりました。
上記二つのトピックにより、テキストデータを取得できれば高精度の翻訳が可能になっています。
問題は日常生活において、視覚情報をテキストデータ化する作業。
しかしこれも2018年画像認識処理におけるトピックで、Alphabet傘下のAI企業DeepMindが
視認できる情報から目で見えない部分を推測する「GenerativeQueryNetwork(GQN)」を開発しています。
GQNは複数の視点の画像だけから、対象の三次元世界を符号化し異なる視点からの視界を復元する事ができます。空間モデルを潜在変数とする潜在モデルで最適化します。Structure from MotionをNNで直接解いたものであり、この1~2年内の最大の進歩と言われています。
3次元的に空間を認知することで、看板などの見える部分だけを認識するのではなく、見えない部分も含めて構造物として認識出来れば、看板の文字表記をテキストデータ化する際の精度は格段に上がるのではないかと思います。
(現段階でここまでの事をやっているかは不明です)
本記事にある、翻訳後のテキスト表示まで数秒というスピードを考えると、看板の文字を単純に認識しているだけに思いますが、グーグルが開発している点を考えると今後さらに精度が良くなる事が予想されます。
ウェアラブル端末での実用化に大いに期待します。「困っている外国人を見つけたら、話しかけて助けてあげる」というのを何年も前から個人的に行なっているのですが、Google Mapsが優秀なので、外で迷っている人はあんまり多くなさそうです。
困っている外国人が多いのは、駅のホーム。特に都心の地下鉄。
「どの電車に乗ればいいのか」
「どの出口から出ればいいのか」
「そもそもどこが出口なのか」
というニーズです。
日本人のぼくですら時々迷ったりすることがあるので、看板を訳して済むケースと、人の助けが必要なケース、両方あると思います。
ぜひ、優秀なNPユーザーのみなさん勇気を出して声をかけてあげてください。ぼくは英語が苦手ですが、気持ちでなんとかなります。些細なやりとりでも、彼らにとっては生涯残る日本での思い出になるかもしれません。ちょうど、この発表があった基調講演動画を見てました。すでにYoutubeにアップされているので興味ある方はこちらからどうぞ〜
https://www.youtube.com/watch?time_continue=584&v=TQSaPsKHPqs
このGoogle Go以外にもAIを絡めた画像・音声認識、翻訳まわりの機能がかなり強化されていてワクワクしました。
一昨日のMicrosoft Build で発表された Fluid Framework を見た際も感じたのですが、テクノロジー翻訳の技術レベルが明らかに1段階あがりましたね。
こういった新たな技術をどうやって自分たちのプロダクトに反映していくか知恵を絞りたいと思っています。
https://www.microsoft.com/en-us/microsoft-365/blog/2019/05/06/build-2019-people-centered-experiences-microsoft-365-productivity-cloud/