3分ですぐ使えるようになる！ベイズの定理の概要と計算方法まとめ

AIZINE（エーアイジン）

・2021/09/25

Picks

このまま本文を読む

本文を読む

注目のコメント

山崎俊彦
東京大学大学院情報理工学系研究科電子情報学専攻　教授
・2021年09月26日
ビル・ゲイツはディープラーニングが登場する前、マイクロソフトの経営がうまくいっている理由の一つにベイズ統計を挙げ、「これからはベイズ統計学の時代だ」と発言したと言われています。

さて、この記事の例だと
　P(A|B) ・・・結果Bが原因Aで起こった確率（事後確率）
　→　メールに「お金」が含まれていた場合、迷惑メールになる確率
を求めるためにP(A|B) = P(B|A)P(A) ÷ P(B)という面倒な計算をしていて、逆に遠回りであるように見えます。また、この記事の例だとP(A|B)は簡単に計算できてしまうようにも見えます。

なので、もう少し問題を複雑にしてみましょう。
メールに「お金、成功、口座、ビットコイン」が含まれているかを考えましょう。含まれていれば1, 含まれていなければ0と表すことにすると
B = (0,0,0,0) - (1,1,1,1)
の16通りあるわけです。これくらいだったら全通り計算できそうですね。

注意しなければならないキーワードが20個あったらどうでしょう？約100万通りあります。100万通り全部計算するのは大変そうです。全部の通りを調べることができるでしょうか？その前に、あなたはこれまで100万通もメールのやり取りをしたことがあったでしょうか？ないならそもそも全パターンの確率なんて求められません。

そう考えると、P(A|B) は理想的には計算できるけど、現実的には計算不可能な値です。では、
P(B|A)P(A) ÷ P(B)
の方はどうでしょう？

P(B|A)は、スパムに上記20個のキーワードが含まれている確率を計算するだけなので、比較的簡単に計算できそうです (実はここもそれなりに工夫は必要ですが、割愛)。P(A), P(B)も簡単ですね。とすると、
P(B|A)P(A) ÷ P(B)
は簡単に計算できてしまいます。

よって
P(A|B) = P(B|A)P(A) ÷ P(B)
よりP(A|B)も計算できてしまうのです。上では計算不可能と言ったのに、です。

これがベイズ統計のすごいところです。ちなみに、これはベイズ統計の入り口の入り口です。
永友元英
都内1年目会社員
・2021年09月28日
大学の統計学の授業で習ったベイズの定理。
ちょっと記事を読んでコメントを見ただけでも面白いことがわかり、試験が取れればいいやと公式だけ暗記したことを少し後悔しています。

.css-5ddv2h{font-feature-settings:'palt';letter-spacing:0.06em;}3分ですぐ使えるようになる！ベイズの定理の概要と計算方法まとめ

コメント

注目のコメント

3分ですぐ使えるようになる！ベイズの定理の概要と計算方法まとめ