• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

3分ですぐ使えるようになる!ベイズの定理の概要と計算方法まとめ

AIZINE(エーアイジン)
31
Picks
このまま本文を読む
本文を読む

コメント


注目のコメント

  • badge
    東京大学 大学院情報理工学系研究科電子情報学専攻 教授

    ビル・ゲイツはディープラーニングが登場する前、マイクロソフトの経営がうまくいっている理由の一つにベイズ統計を挙げ、「これからはベイズ統計学の時代だ」と発言したと言われています。

    さて、この記事の例だと
     P(A|B) ・・・結果Bが原因Aで起こった確率(事後確率)
     → メールに「お金」が含まれていた場合、迷惑メールになる確率
    を求めるためにP(A|B) = P(B|A)P(A) ÷ P(B)という面倒な計算をしていて、逆に遠回りであるように見えます。また、この記事の例だとP(A|B)は簡単に計算できてしまうようにも見えます。

    なので、もう少し問題を複雑にしてみましょう。
    メールに「お金、成功、口座、ビットコイン」が含まれているかを考えましょう。含まれていれば1, 含まれていなければ0と表すことにすると
    B = (0,0,0,0) - (1,1,1,1)
    の16通りあるわけです。これくらいだったら全通り計算できそうですね。

    注意しなければならないキーワードが20個あったらどうでしょう?約100万通りあります。100万通り全部計算するのは大変そうです。全部の通りを調べることができるでしょうか?その前に、あなたはこれまで100万通もメールのやり取りをしたことがあったでしょうか?ないならそもそも全パターンの確率なんて求められません。

    そう考えると、P(A|B) は理想的には計算できるけど、現実的には計算不可能な値です。では、
    P(B|A)P(A) ÷ P(B)
    の方はどうでしょう?

    P(B|A)は、スパムに上記20個のキーワードが含まれている確率を計算するだけなので、比較的簡単に計算できそうです (実はここもそれなりに工夫は必要ですが、割愛)。P(A), P(B)も簡単ですね。とすると、
    P(B|A)P(A) ÷ P(B)
    は簡単に計算できてしまいます。

    よって
    P(A|B) = P(B|A)P(A) ÷ P(B)
    よりP(A|B)も計算できてしまうのです。上では計算不可能と言ったのに、です。

    これがベイズ統計のすごいところです。ちなみに、これはベイズ統計の入り口の入り口です。


  • 都内1年目会社員

    大学の統計学の授業で習ったベイズの定理。
    ちょっと記事を読んでコメントを見ただけでも面白いことがわかり、試験が取れればいいやと公式だけ暗記したことを少し後悔しています。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか