統計のプロでも「難しい」 AIの時代、それでも予測できないものとは
コメント
注目のコメント
椿先生は応用統計家として、本当に様々な分野のデータを見てこられた先生です。だからこそ、統計は社会技術であって、どう使うかは使う側の倫理に委ねられているということを体験としてよくお分かりなのだと感じました。
データドリブン意思決定とか、エビデンスベースドなんとかがどんどん出てくる時代だこらこそ、倫理について考えてみることも大事なのだと思います。
【追記】
川崎先生の経済の話で興味を引かれたのは、イノベーションが本質的に予見できないので、長期予測は難しいという話。テクノロジーのロードマップはありますが、それを予測モデルに取り込もうと思っても、そう簡単にはいかない悩ましさがあります。ここで言ってるイノベーションはテクノロジーに限りませんし、計測は非常に難しいものだと思います。
あと、株価についてはランダムに見える動きが、有事に突然ランダムでなくなる、というのも難しいですよね。サイコロを振っていたつもりが、ある日突然1だらけのサイコロになる、という比喩はとても分かりやすく、そして恐ろしくもありました。人の知性だと2、3のパラメータ(次元)しか同時に類似性を判断できないので、その点、多数パラメータを瞬時に同時解析できる機械学習さんはブラックボックス(解釈性が悪い)だと呼ばれてしまいますよね。全ては計算なので、不出来な人の言いがかりでしかありません。
予測に足る必要十分なデータが入力として与えられ、統計モデルにうまく乗っかるものが予測できているに過ぎません。
例えば、
東大が開発した「AIで広告効果を予測する技術」の中身
https://newspicks.com/news/4220653
で取り上げていただいた広告のクリック率は相関係数0.55で予測できるわけですが、たった0.55。この間セミナーでこの技術についてご紹介したら「どうしたらもっと向上できますか」とご質問を受けました。広告を好きだとしてもクリックするか、その日の気分にも依ったりするのでなかなか難しいものです。
また、最近ホテルのダイナミックプライシングが話題になっていますが、ホテル宿泊者数に最も効くのは過去の客数や天気などではなく、その日ジャニーズのコンサートもしくは医療系の大きな学会があるかどうか。そういう情報をオープンデータから取ってきてAIに与えるのは意外と難しかったりします。
そして、説明性がいまホットトピックとなっていますが、人間の直感(とそれに対する本人の説明)って案外当てにならないという例を沢山しっているので、どこまで説明性を担保すべきかはそろそろちゃんと議論したほうが良いと思っています。