AI vs.ヒト、動画認識力で軍配は?

2018/5/9
NewsPicksは、J-WAVE「STEP ONE」(毎週月~木 9:00~13:00)と連携した企画「PICK ONE」(毎週月~木 11:10~11:20)をスタートしました。
5月、7日から17日までは「PICK ONE」が富士通とコラボレーション。この期間は、AIやIoTといったテクノロジーやオープンイノベーション、働き方改革に精通するプロピッカーが登場し、旬のニュースを取り上げて解説します。
9日は、東京大学 大学院 准教授の山崎 俊彦(やまさき・としひこ)さんが出演。
5月17日、18日に開催される「Fujitsu Forum 2018」では、トークセッションを行います。詳細はページ下部よりご確認のうえ、ぜひご来場ください。
山崎さんは、東京大学の准教授として、AIやビッグデータを活用して個人の魅力を解析・数値化する「魅力工学」の研究・開発に力を入れています。
今日は「読唇術で人間に勝利!AIの恐るべき動画認識はココまできている!」(Diamond Online)を題材にお話いただきました。

山崎さんへの質問

Q1. 注目すべきポイントは?
A. これぞ「AIの正しい活用術」といえる使い方をしている点です。人間は自分の経験や実際に見聞きした内容しか、自分の実力に変えることはできないですよね。また、1人で5000時間分の動画を見ることも不可能といえます。
しかし、AIはそれらの経験がデジタルデータになった瞬間、世界中の経験を1台のコンピュータに集約することができます。「多くの経験を積まないとできない」ことは、実はAIが得意とすることで、今回の読唇術の事例はその典型例といえるでしょう。
Q2. 読唇術のほかにも、「映像だけから音を復元する技術」や「防音ガラス越しのポテトチップの袋から会話を再現する技術」など、想像を超えた技術が開発・研究されているそうですね?
A. そうなんです。音はご存知の通り、波ですよね。波が空気中を伝わると観葉植物の葉っぱやビニール袋などは、肉眼でわからないけれど微妙に振動します。
その振動を高性能のカメラと最新の画像処理技術を用いることで、どんな音か推定できます。例えば、誰にも聞かれないようにこっそりと話していても、近くのテーブルに置いてあるコップの水面の揺れで、会話の内容がわかるようになるかもしれないのです。
Q3. AIの動画認識技術は、どんな未来を作り出すのでしょう?
A. これまで、画像や動画の認識そのものが難しい課題であり、多くの研究者がチャレンジしてきました。例えば、今回の読唇術AIのような技術がたくさん揃うと、ろうあ者を支援することができる技術など可能性が広がります。
AI分野は変化のスピードがとても早く、「こんなことができればいいな!」という思いがあれば、どんどん実現できるのではないかとすら思ってしまいます。
今回のニュースをはじめとした山崎さんのコメントは、ぜひ以下からチェックしてみてください。

「Fujitsu Forum 2018」にてトークセッションを開催

5月17日、18日に開催される「Fujitsu Forum 2018」では富士通×PICK ONEがコラボレーションし、STEP ONEのMCとゲストでトークセッションを行います。事前にお申し込みのうえ、ぜひご来場ください。
【トークゲスト】(予定)
5月17日(木)15:00-15:45 玉城 絵美(H2L 創業者)
5月17日(木)17:00-17:45 山崎 俊彦 (東京大学 大学院情報理工学系研究科電子情報学専攻 准教授)
5月18日(金)11:00-11:45 北川 烈(SmartDrive 代表)
5月18日(金)13:00-13:45 本間 充(電通マクロミルインサイトCDO)
お申し込みと、プログラムや展示の詳細、タイムテーブルはこちらからご覧いただけます。「共創」を多角的な観点で考えビジネスのヒントを得る場、ぜひともご参加ください。
5月10日は、H2L代表の玉城 絵美さんが出演予定です。こちらもお楽しみください。
【番組概要】
放送局: J-WAVE 81.3FM
番組タイトル: PICK ONE
ナビゲーター: サッシャ、寺岡歩美(sugar me)
放送日時: 毎週月~木曜日11:00~11:20(ワイドプログラム『STEP ONE』内)
番組WEBサイトはこちらをご覧ください