今さら聞けない!データマーケティング:ビッグデータで「タピオカ大流行」は予測できたのか(前編)=松本健太郎(データサイエンティスト&マーケター)【週刊エコノミストOnline】(mainichibooks.com)
コメント
注目のコメント
データで語るためにはデータから始めないで仮説で始めることがとても大事です。ラプラスの悪魔はいない。データが何かの答えを勝手に予測することは基本的にはないと思った方が良いですし、データをとにかく分析することで何か見つけようとだけ思うのは危険です。
まずは仮説が必要で、その仮説に基づいてデータを取ったり分析したりしなくては。と言うのは、世の中の変数全てをデータ化することはできませんし、データごとにバイアスがあるからです。
例えば全数データと思われているウェブの行動データ。それでもウェブの中のことしかわかんない。ウェブに触らない人のことはわからない。それに例えば閲覧時間をみるにしても、マシントラブルで見られなくなる人なんかもいるわけで、データで事実は取れても真実を100%反映はしていない。
マーケティングリサーチのような代表データはもっと気をつけて扱わなくてはいけません。必ず母数の代表性は担保されないし、順序効果などで調査票が生むバイアスもあります。それに回答にも必ずバイアスがかかります。回答者がみんな正直とは限りません。うまく調査表を作っておけば明らかに矛盾する回答は弾けますが、やっぱり人は見栄もはりたいですし、わからないなと内心思っていることも聞かれれば答えてしまうものです。
いろいろな要因があるからこそ、データを作るのも扱うのもプロが必要。例えば頻繁に見かける不思議な調査票。さらにそこで不思議な順番で聞かれる「なんでこの商品を買わないのか?」と言う類のダイレクトな質問。そもそもこういった質問では、調査票の流れも重要ですし、質問文を相当精度高く練らないと使えるデータになりません。それにそれらのバイアスに気を使ったとしても、(ご自身で回答することを考えればお分かりのように)個人個人が確信を持って答えられる問いではない。回答は基本的には傾向値のチェックにしか使えない。ほかの聞き方とデータの組み合わせかたからも見られるようにしておかないといけないんですよ…仕事柄、分析や調査などの資料を見たり探すが、ほんと、これに尽きる。「1つ目は、データは事実だが、真実とは限らない。
2つ目は、データの「意味」を考えなければならない。」
結局、データからどう読み取り考えるか。