「仮説を立てろ」はウソ! データ分析のプロはこう見る 西内啓×久永啓(前編)(VICTORY)
コメント
注目のコメント
仮説なしでデータ分析するなんて、服着ないで地図なしで探検に出かけるようなものです。人間の知性とデータの強みを合わせてこそ分析は価値を生み出します。自然科学の歴史を見てもデータだけ見て発見につながるということは本当に稀です。仮説があり、それを検証するためにデータを使うのが殆どの成功ケースです。稀なデータ・ドリブンパターンにかけるのは非効率で非推奨です。もちろん仮説にこだわらず幅広に探索することで新しい発見はあり得ますが、それはゼロベースのデータ収集とは違います。
統計の専門家ではないので、あくまでも個人的な経験から来る感想に過ぎないが、データドリブンか仮説ドリブンかという議論は一概にはどちらが正しいとは言えないと思う。
何がシグナルで何がノイズかをデータから識別する際に、しばしばノイズがシグナルよりも大きいことがあり、その場合、データドリブンなアプローチは有効である。しかし、仮説を立てろはウソとまでは言えないのでは。
実際には、データ量、次元数に依存する部分もあるのでは?
次元数が少ない場合、いくら大量のデータ、Big Dataがあったとしても知りたいことが抽出できるとは限らない。また、いくら次元数が多くても十分なデータ量がない限り統計手法自体が利用できない。
POSデータがどんなにたくさんあっても、どの商品がいつ売れたかはわかるが、どんな人になぜその商品が売れたかはわからない。どんな人がどういうシチュエーションで買ったかはわからない。
ある人の意思決定とその結果として起こる行動、さらにその行動と環境とのインタラクションによってもたらされる結果を知るためには、行動結果の情報だけでは足りず、その人に関する様々な情報、その時の環境の情報が必要だ。
現状では、無限の次元数でデータを集めることは出来ず、どういう種類、どういう次元のデータを集めるかの仮説は立てざるを得ないのでは。
その時に、可能な限りデータの次元数と量を増やすことは大事ではある。
例えデータドリブンだとしても、分析を人間の脳がやっている限り、必ず脳の中にある情報と比較して、ある種の関係性に価値があるかないかを判断しているはずではないだろうか。仮説設定は論理的思考において極めて重要。
なぜか?
仮説を設定し、検証するフローの方が、情報収集の指向性がでて、問題解決までの時間が短くなるからだ。
注意点は、仮説であることを明確に認識しないと、「思い込み」になってしまう。