Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 01-07-2008
ベイズの統計学では,事前確率から情報(データ)を使って事後確率を導く.
レモン色タクシーの例 だと,事前確率というのは「レモン色タクシーは 1%」.情報は「おばあちゃんにレモン色に見えた」で,事後確率が「目の前のタクシーがレモン色の確率」
もし,何の情報も無ければ,「目の前のタクシーがレモン色の確率」は 1% だけど,「おばあちゃんにレモン色に見えた」という情報によって,その確率は 16% に更新された.
この 16% という値は,情報の質によって左右される.この物語の中では,おばあちゃんの正解率は 95% だったけれど,これがもっと高ければ,おばあちゃんにレモン色に見えた場合,それが本当にレモン色の確率はもっとあがるし,逆におばあちゃんの正解率(情報の質)が悪ければ,大もとの 1% からあまり変わらない.
横軸がおばあちゃんが正解の確率で,縦軸が目の前のタクシーがレモン色の確率.おばあちゃんの正解の確率が 99% になってやっと,レモン色タクシーの確率が 50% になる.もちろんおばあちゃんが絶対に正しいなら,おばあちゃんが「レモン色」と言えば 100% レモン色.
95% と言えばかなり高い正解の確率のような気がするけれど,元々レモン色タクシーは 1% しかないので,目の前のタクシーがレモン色の確率はなかなか上がらない.要するに,繰り返しになるけど,めったに起こらないことは誰が何と言おうとめったに起こらない,ということだ.
レモン色タクシーの割合が増えれば,目の前のタクシーがレモン色である確率も一気に上がる.もし 50% のタクシーがレモン色なら,おばあちゃんが「レモン色」と言えば,それがレモン色の確率は 95%.黄色もレモン色も同じ割合であれば,事前の情報は無いといっしょだから,正解率 95% のおばあちゃんがレモン色,と言えば,レモン色である確率は 95% だ.
ベイズの理論は日常生活で無意識に使われていると思う.何となく確率を思い浮かべていて,与えられた情報によってその確率を更新する.でも,きちんとやろうとすると,最初に思い浮かべる確率(事前確率)と情報の質をしっかり見極めなくてはいけない.それは非常に難しい.
例えば・・・
「今年中に結婚できる確率は 5% くらいかしらね」(事前確率)
→「でも、正解率 90% っていう噂の占い師に『結婚できますよ』って言われたわ」(情報)
→「今年中に結婚できる確率は•••?」(事後確率)
でもこの場合,事前確率の 5% は忘れ去られて,90% って結論づけるかな?あるいは 100% だと結論づけるかな?
「よく当たる」占い師に何か言われたら,レモン色のタクシーの話を思い出すといいかもしれない.「そんなこと起こるはずないじゃん」って思ったら,きっとほんとにそんなこと起こるはずないんだと思う.