3分ですぐ使えるようになる!ベイズの定理の概要と計算方法まとめ
コメント
注目のコメント
ビル・ゲイツはディープラーニングが登場する前、マイクロソフトの経営がうまくいっている理由の一つにベイズ統計を挙げ、「これからはベイズ統計学の時代だ」と発言したと言われています。
さて、この記事の例だと
P(A|B) ・・・結果Bが原因Aで起こった確率(事後確率)
→ メールに「お金」が含まれていた場合、迷惑メールになる確率
を求めるためにP(A|B) = P(B|A)P(A) ÷ P(B)という面倒な計算をしていて、逆に遠回りであるように見えます。また、この記事の例だとP(A|B)は簡単に計算できてしまうようにも見えます。
なので、もう少し問題を複雑にしてみましょう。
メールに「お金、成功、口座、ビットコイン」が含まれているかを考えましょう。含まれていれば1, 含まれていなければ0と表すことにすると
B = (0,0,0,0) - (1,1,1,1)
の16通りあるわけです。これくらいだったら全通り計算できそうですね。
注意しなければならないキーワードが20個あったらどうでしょう?約100万通りあります。100万通り全部計算するのは大変そうです。全部の通りを調べることができるでしょうか?その前に、あなたはこれまで100万通もメールのやり取りをしたことがあったでしょうか?ないならそもそも全パターンの確率なんて求められません。
そう考えると、P(A|B) は理想的には計算できるけど、現実的には計算不可能な値です。では、
P(B|A)P(A) ÷ P(B)
の方はどうでしょう?
P(B|A)は、スパムに上記20個のキーワードが含まれている確率を計算するだけなので、比較的簡単に計算できそうです (実はここもそれなりに工夫は必要ですが、割愛)。P(A), P(B)も簡単ですね。とすると、
P(B|A)P(A) ÷ P(B)
は簡単に計算できてしまいます。
よって
P(A|B) = P(B|A)P(A) ÷ P(B)
よりP(A|B)も計算できてしまうのです。上では計算不可能と言ったのに、です。
これがベイズ統計のすごいところです。ちなみに、これはベイズ統計の入り口の入り口です。