Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 02-15-2009

日本の市町村の人口の分布がベンフォードの法則に従っている,ということは判った.今度はアメリカの都市の人口を調べてみよう.

アメリカは市ではなくて郡 (county) の人口のデータがたやすく手に入った.ただ2000年に行われた国勢調査なので,やや古い.ここ にある County population datasets の中で一番上にあるデータ.csv なので,Rに読み込んだりするのが非常に楽だ.

のべ 3,140 の郡の人口の一番上の位の数のグラフ.ここでも,ベンフォードの法則(青いライン)とほぼ一致している.(大きいグラフ)

ちなみに最も人口が多い郡はカリフォルニアのロス・アンジェルス郡で人口はおよそ950万人.逆に人口が一番少ない郡はテキサス州にある ラヴィング群 で,人口は67だ.

一番上の位割合
197030.9%
256418.0%
340112.8%
43069.7%
52066.6%
62086.6%
71705.4%
81725.5%
91444.6%

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 日曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 02-13-2009

最新の The American Statistician を読んでいたら 「ベンフォードの法則の簡単な説明」 (Fewster RM, "A simple explanation of Benford's Law" 2009),という論文が載っていた.面白かった.

-- -- -- --

ベンフォードの法則 とは・・・

「自然に発生したデータでは,一番上の位は1であることが多い」 というちょっと信じ難い法則.
本当は1から9のそれぞれの数字が現れる割合についてちゃんと言及している.シンプルなバージョンだと,一番上の位が x である割合は log(1+1/x, base=10)一番上の位の数字になれるのは1から9までなんだけど,みんな 1/9 ずつ起こるのではなくて,1であることがだいたい 30%で,2であることがだいたい 18%で,3が 13%.だんだん減っていって,最初の数字が9である確率は 5%未満となる.

いろんなデータに応用できる法則で,人口だとか,川の長さだとか,株価だとか,たくさんデータを集めてみると,その約 30% は一番上の位が1なんだそうだ.

この法則は19世紀末に発見されていたけれど,ちゃんとした数学的な証明が発表されたのは1995年だ.証明はすごく難しいらしい.ややわかり易い説明も検索すればみつかる.

わかり易く書いてある説明を読んでとりあえずは納得している.でもやっぱりいまいち信じ難い.

と言うわけで,確認してみた.

データは日本の市町村の人口.総務省:統計局のページからダウンロードできる.市町村名と数字だけの2行だけにしたデータは ここ

データを読み込んで,きれいにして,一番上の位を調べる,というのは R でやった.
ちなみに,一番上の位の数字を取り出すには floor( x / 10^floor(log(x,10)) ) とかで出来る.

1,805の市町村の人口の一番上の位をあらわしたのが下のグラフ.(大きいバージョン
青いラインは,ベンフォードの法則から予測される数.これによると,1と2で始まる人口がもう少し多いはずだけど,大まかに見てほぼ法則通りだ.確かに全体の3割ほどの市町村の人口は1で始まっている.

一番上の位割合
152529.1%
227215.1%
324713.7%
418410.2%
51669.2%
61267.0%
71086.0%
81015.6%
9764.2%

ほかのデータでも確かめてみた

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 02-12-2009

これ の続き.

とりあえず,時速40キロと時速60キロの平均速度だ.

速さではなくて距離の話だったら単純でいい.40キロと60キロの平均は50キロだ.

だったら距離の話にしてしまえばいい.

速さは決められた時間 (ここでは時速なので1時間) で移動する距離を表している.だからその基本となる時間の単位が違えば、数字を足して2で割るという単純な計算はできなくなる.要するに,時速40キロと分速60キロの平均を求めるには注意が必要だ.

逆に言えば単位となる時間が同じならば,足して2で割って平均が求まる.時速40キロで2時間,時速60キロで2時間走ったら,平均速度は時速50キロだ.

よくある平均速度の問題では,単位となる時間が異なる.例:120キロの道のりを行きは時速40キロ,帰りは時速60キロで走ったときの平均速度は?

この場合,行きは3時間,帰りは2時間走っているので,単純に40と60の平均で50とはできない.40キロで走っていた時間の方が長いので,平均は40キロの方に近くなる.

40歳の人が3人,60歳の人が2人の時の平均年齢は?と同じ問題だ.重みつき平均で,答は(40歳×3人+60歳×2人)÷5人=48歳. 平均速度も同じ計算で,平均時速48キロ.
あるいは,結局延べ240キロを5時間で走ったので,240÷5=48.

サプリメントの話だった.

1日1錠とか,1日3錠は,速度を表している.だから平均を計算する時に注意が必要だ.単位となる時間がいっしょなら 「平均で1日2錠」 という答になる.例えば,1日1錠ずつ15日,1日3錠ずつ15日飲んだら,結局30日で,15+45=60錠飲んだから,平均は1日2錠.

ところが 「120キロの道のりを・・・」 の問題と同じように,二つのシナリオ(1錠とか3錠)で時間が違うので,平均2錠とはならない.

1日1錠で45日,1日3錠で15日の平均だ.1歳の人が45人,3歳の人が15人いる場合を考えればいい.合計だと60人で年齢の総和は90でなので,平均は1.5だ.

そんな訳で,確かに1日1.5錠飲めば,45錠無くなるのに30日かかる.

1日1錠と1日3錠の平均は1日1.5錠ということだ.

普通の平均(足して2で割る)は算術平均,速度の場合に使われる平均は調和平均と呼ばれる.

1日1.5錠飲むというのはちょっとめんどくさいな.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 木曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 02-11-2009

まりの疑問.なかなか面白い問題だ.

45錠入りのサプリメントを買った.1日1~3錠飲んでいいということだ.

1日1錠飲むと45日,1ヶ月半で無くなる.1日3錠飲むと15日,半月で無くなる.

ちょうど1ヶ月で無くなるように飲みたい。1錠と3錠の真ん中,1日2錠飲めばいいに違いない!

でも1日2錠飲むと1ヶ月ではなく23日で無くなる.不思議だ.なんで?

続く

続きのプロローグ:

問 : 時速40キロと時速60キロの平均を求めなさい.
答 : 40と60の平均だから時速50キロ.

『でも,確かこれではいけないって誰からか聞いたような気がする.答は時速50キロではない』

ま,答は時速50キロではないって言う人もいるけれど,僕はちょっとひねくれているので,やっぱり答は時速50キロって言いたい.

続く

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 水曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 01-19-2009

が出る確率もが出る確率も 50% のコインを投げる.

問1:と出すには平均で何回投げなくてはいけませんか?

問1の答

と出すにはとりあえずを出さなくてはいけない.が出る確率は 1/2 なので,が出るまでにコインを平均で2回投げなくてはいけない.そして,次はを出さなくてはいけない.が出る確率は 1/2 なので,が出るまでにコインを平均で2回なげなくてはいけない.

つまり,と出すには平均で4回かかる.

-- -- -- --

問2:と出すには平均で何回投げなくてはいけませんか?

問2の答

問1より少し難しい.問1のように1投ずつ分けて考えることはできない.が出た後にが出てしまうと,振り出しにもどってしまうからだ.

とりあえず求めたい期待値(平均値)を W とおく.場合分けをして考える.

最初の1投がだった場合:
1回投げたけれど,全く前進していない.無駄に1回投げただけだ.だからこの場合の期待値は W + 1.

最初の2投がだった場合:
2回投げたけれど,全く前進していない.無駄に2回投げただけだ.だからこの場合の期待値は W + 2.

最初の2投がだった場合:
終了!この場合の期待値は 2.

この3通りのシナリオは,それぞれ 50%, 25%, 25% の確率で起こる.期待値はそれぞれのシナリオでの期待値の重み付き平均なので
W = 0.5( W + 1 ) + 0.25( W + 2 ) + 0.25( 2 ) と書ける.これを W について解くと W = 6 が求まる.という訳で答は6.

-- -- -- --

同じ考え方で,表表表表表裏表裏表表裏裏 が出るまでの期待値も求められる(と思う).

-- -- -- --

表裏まで平均で4回.表表までは平均で6回.よい?

コインを2回投げた場合,表裏となる確率も表表となる確率もそれぞれ 25%.でも「平均で何回投げるか」というのは別の問題.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 月曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 01-16-2009

前立腺癌の研究をしている友達がいる.癌だけではないか.

前立腺肥大になると,夜中に何度もトイレに行かなくてはならない,とかいろいろ大変.どういう作用でかはよく判明していないらしいのだけど,前立腺肥大にバイアグラが効くようだ,ということが判った.

そこで,二重盲検の臨床試験を計画しているらしい.

二重盲検 というのは,患者さんもお医者さんも,誰が本当の薬を飲んでいて誰が(全く効果がない) 偽薬 を飲んでいるか判らない,というやりかた.バイアスの無い結論を導くために必要.

でも,薬がバイアグラだったら,患者さんにはばれてしまうよね.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(4)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 09-26-2008

解けたら是非教えてください.

長さ L の棒が天井から糸でぶらさがっています.その糸は棒の端から S のところで結ばれています.その棒を無作為に選んだ位置で切ります.すると棒の一部が床に落ちます.まだぶらさがっているちょっと短くなった棒をまた無作為に選んだ点で切ります.こうして2回切ったあと,まだ天井からぶらさがっている棒の長さを Y として,Yの累積分布関数 P[Y < y] を求めてください.

L=1, S=1/2 の場合は ここ に載っている(細かいところがちょっと違うけど)

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 09-12-2008

難しい問題の答が単純だとちょっとうれしい.逆に,シンプルな問題なのに答が思ったより複雑,というのもなんとなく素敵だ.

これはその1例.

「天井からぶら下がっている物体を日本刀で切る」問題シリーズのひとつ.

問題と答だけ載せて解く過程は省くので,確率•統計を学んだ人,好きな人は是非解いてみて下さい.

--- --- ---

問題
長さ1メートルの棒が,真ん中についたひもによって天井からぶらさがっています.その棒を,無作為に選んだ点で切ります.すると棒の一部分が床に落ちます.まだ天井からぶら下がっている(ちょっと短くなった)棒を,また無作為に選んだ点で切ります.すると棒の一部分が床に落ちます.床に落ちた棒の長さの合計の累積分布関数を求めて下さい.

つまり1メートルの棒のうち,床に落ちた部分2本の合計の長さを Y として,P[Y < y] を求めて下さい,ということです.

--- --- ---

ふむふむ.

--- --- ---

答: F(y) というのは P[Y < y] のこと.

ここに答が表示されるはず.

問題がシンプルな割に答は複雑.でしょ?

解いて下さい.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 08-22-2008

Here's the plot (PDF 64KB) of length versus release date of each of the Beatles' songs.

Some additional notes that didn't fit on the plot:

* Kansas City / Hey Hey Hey Hey (medley) is counted as one song.
* Revolution and Revolution 1 are counted as different songs.
* Free as a Bird (1995) and Real Love (1996) released with The Beatles Anthology are not included.

If you have comments/questions please send them to Tatsuki Koyama (tatsuki.koyama _at_ vanderbilt.edu).

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 08-19-2008

今から10年ほど前に,ビートルズの歌の長さのデータを集めた.非常に簡単に集められるデータだ.CDプレイヤーに表示される分,秒を記録するだけでよい.

初期のビートルズの歌は短いよなぁと思ったのが,このデータを集めた動機だ.

その後何度か(二度だ),このデータをグラフにして発表した.

今回はその集大成.小さく進化することはあっても,これから大幅に変わることはないだろう.

見ればすぐわかるけれど,全てのデータを表している.平均とか中央値は無用.

線の太さとか色とか,文字の色とか大きさとか,みんなそれなりの理由があって選んである.元々は印刷するように作っているので,画面で表示した場合は実は少し見た目が違うのだけど.

描かれているもの全てに存在意義があるし,存在意義の無い物は描かれていない.でも,そういうのは哲学的な意見も含むから議論の余地はもちろんある.

大雑把に見ると全体の傾向が判るし,細かく見ればいろいろ細かな面白いことが判る.

黒い点は Lennon-McCartney,赤は Harrison,紫がその他のビートルズの組み合わせで,青がカバー曲.

グラフは ここ (PDF 64KB) にある.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 火曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 07-28-2008

前回 の続き

あなたが勝つ確率が1/4というところまで判った.宿題は,それぞれの取り分の期待値を求めなさい,だ.

勝つ確率の時と同じように,まず二つの切れ目によって出来る角度のθが与えられているとして考える.

あなたの取り分は,天井と結ぶ糸の無い方.θ0からπの間の数を取るから,ま,ピザの 一切れを想像すればいいかな.その一切れの全体に対する割合はθ/2π.そっちがあなたの取り分である確率は天井と結ぶ糸が残りの大きい方に行った時だから,確率は1-θ/2π

逆にあなたの取り分が半分より大きい場合は,取り分は1-θ/2πで,その確率は天井と結ぶ糸が小さい方に行く確率だから,θ/2π

θが与えられた時の,あなたの取り分の期待値は,あなたの取り分の重み付き平均.(θ/2π)×(1-θ/2π) + (1-θ/2π)×(θ/2π) = θ/π - θ2/2π2

これは条件付き (conditional) 期待値だから,条件を外すには,θの(一様分布の)確率密度関数を使って積分すればよい.

と言う訳で答えは で,1/3 となる.フラフープ全体の価値が3億円だとすると,あなたの取り分の期待値は1億円.

☆★☆★

ま,これはこれでいい.

でも,取り分の期待値というのは,要するに平均だ.大した情報ではない.本当に求めなくてはいけないのは,取り分の確率密度関数 (pdf) とか累積密度関数 (cdf) だ.それは次.本当は最初に pdf とか cdf とか求めておけば,勝つ確率も取り分の期待値もすぐに計算出来るんだけどね.順序が逆だった.

そんな訳で,続き

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 月曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 07-25-2008

天井からフラフープがぶら下がっている,とする.そのフラフープをランダムに日本刀で二回切る.すると,フラフープの一部が床に落ちる.

実はそのフラフープは黄金で,床に落ちた分があなたの取り分で,天井からぶら下がっているのが僕の取り分.

取り分の大きい方が勝ち.

☆★☆★☆★☆★☆

切る場所がランダムに決められるので,公平なゲームなような気がする.どちらが勝つ確率も 50% のような気がする.

でも違う.僕の方が有利.

天井からぶら下がっているのを切ると危ないので,床に置いて切ることにする.ゲームの本質は全く変わらない.日本刀で切る2点と天井とつながる点とあるけれど,切る2点がランダムなので,その2点と天井とつながる点との位置関係も結局ランダム.

という訳で,最初に日本刀で切ってから,天井とつなぐ点をランダムに選んでもいっしょ.

最初に日本刀で2箇所切るので,フラフープは2つに切れる.その後選ぶ天井につなぐ点は長い方になる確率の方が高い.

僕が勝つ確率を計算してみる.時計の文字盤を使って説明すると•••

日本刀で一回切った時に,その切れ目を12時に合わせる.二回目の切れ目が例えば1時のところだと,僕の方がかなり有利.天井とつなぐ点が12時と1時の間に来たときだけ僕が負けるけれど,後は僕の勝ちだ.

二回目の切れ目が6時に近いと,その時点ではほぼ互角の勝負になる.

7時,8時・・・となるとまた僕の方が有利になって行って,11時ではまたほぼ一方的な試合.

という訳で僕が勝つ確率は・・・じゃなくて,負ける確率の方がシンプルだった.僕が負ける確率は・・・

θが日本刀の切れ目が作る角度で 0 からπまで変化する.あなたが勝つ確率は θ/2π.
( 1/π ) は θの(一様分布の)確率密度関数だ.

かなり一方的なゲーム.

このフラフープの価値が3億円だとして,それぞれの取り分の期待値を計算しなさい,というのは 宿題

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(1)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 06-20-2008

この間,とある雑誌のとある記事を読んでいたら,Breast Cancer Discriminates (乳がんは不公平だ) という見出しで次のようなことが書いてあった. ・40,000 American women - the population of Grand Rapids, MI- will die of breast cancer this year.
・Black women with breast cancer are 35% more likely to die than white women.
・Only one in three Hispanic women ages 40 and older have regular mammograms.
・If you're uninsured, your risk of dying from breast cancer jumps by 50%.

・4万人のアメリカ人女性 (ミシガン州・グランドラピッズの人口と同じ) が今年,乳がんで死ぬ.
・乳がんを患っている黒人女性は白人女性より 35% 死ぬ確率が高い.
・40歳以上のヒスパニック系の女性の3人に1人しか定期的にマンモグラフィーを受けていない.
・もしあなたが保険に入っていないなら,乳がんで死ぬ確率は 50% 高くなる.

あやふやな日本語だけど,もとの英語もかなりあやふや.ま,それはこの際いいや.

問題なのは最後の文.

言いたいことは,『保険に入っていない人は,保険に入っている人より乳がんで死ぬ確率が高い』だ.

確率ではないか.割合だ.(ということは,risk という言葉の選択は間違い.)保険に入っていなくて乳がんで死ぬ人の(保険に入っていない人全体に占める)割合は,保険に入っていて乳がんで死ぬ人の(保険に入っている人全体に占める)割合より高い.

ま,これはたぶん本当なんだと思う.保険に入っていない人は,ま,たぶん貧しい人が多いだろうし,あまり自分の健康に気を使わない人が多いだろう.だから定期的に検査に行くこともないだろう.もしかして,体調に異常をきたしても,病院に行くのをためらって早期発見の機会を失うかもしれない.

でもこの英語の書き方だと (特に jump という動詞の選択が) 保険に入っていないことが,乳がんで死ぬ理由になっている感じだ.逆に言えば,保険に入ることによって乳がんで死ぬ確率が低くなる,と読める.

直接の因果関係はないだろう.間接的に,保険に入る→定期検査に行くようになる→早期発見の確率が上がる,という因果関係はあるだろうけど.ま,これを書いた人もその効果を期待して,「保険に入っていないと乳がんで死ぬ確率が 50% も上がるよ」と書いたのだと思う.

そう考えると,そんなに悪くないか.じゃ,いいや.ちゃんと健康保険に入りましょう.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(2)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 03-21-2008

学会での楽しみのひとつがいろんな会社のブースを訪れたり,ちょっと安くなっている本を見て回ることだ.

今回も到着した日にふらりふらりといろんな出版社のブースで統計学の本をさらりさらりと見ていた.まだ学会が始まったばかりの日曜日の夕方だったので本屋さんも軽く準備中という雰囲気だった.

何気なく,というか,タイトルに目を引かれて手に取った本が不良品だった.不良品は言いすぎかな.完璧ではなかった.裏表紙(ハードカバー)の何も書かれていないところがちょっとだけゆがんでいる.外見ではわからないし,もちろん読む上では全く問題はない.

でも,統計学の本たちにとっては年に数度の晴れの舞台だから,そこで本の整理をしている店番の人に「この本,取り替えたほうがいいですよ」と教えてあげた.

お店の人も「あらあら困ったわねぇ」という軽い感じだったのだけど,「これじゃ売れないからあげるよ」ということになった.別にそれを期待していた訳じゃないけれど,確かに売れないか.

喜んでもらっておいた.

その後,そこにある本を全部チェックしたい衝動に駆られたけれど,なんとか踏みとどまった.

ちなみに僕の目を引いたその本のタイトルは "All of Nonparametric Statistics".ノンパラメトリック統計の全て.

全てという割には薄い.

しかも序章に書いてあったのだけど,従来のランクに基づいた方法にはほとんど触れていないそうだ.ま,そういうアプローチもあるだろうけれど,それでいて「全て」と言い切るのはなかなかすごい.

ちなみに著者は "All of Statistics" という本も書いている.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 金曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 01-07-2008

ベイズの統計学では,事前確率から情報(データ)を使って事後確率を導く.

レモン色タクシーの例 だと,事前確率というのは「レモン色タクシーは 1%」.情報は「おばあちゃんにレモン色に見えた」で,事後確率が「目の前のタクシーがレモン色の確率」

もし,何の情報も無ければ,「目の前のタクシーがレモン色の確率」は 1% だけど,「おばあちゃんにレモン色に見えた」という情報によって,その確率は 16% に更新された.

この 16% という値は,情報の質によって左右される.この物語の中では,おばあちゃんの正解率は 95% だったけれど,これがもっと高ければ,おばあちゃんにレモン色に見えた場合,それが本当にレモン色の確率はもっとあがるし,逆におばあちゃんの正解率(情報の質)が悪ければ,大もとの 1% からあまり変わらない.

横軸がおばあちゃんが正解の確率で,縦軸が目の前のタクシーがレモン色の確率.おばあちゃんの正解の確率が 99% になってやっと,レモン色タクシーの確率が 50% になる.もちろんおばあちゃんが絶対に正しいなら,おばあちゃんが「レモン色」と言えば 100% レモン色.

95% と言えばかなり高い正解の確率のような気がするけれど,元々レモン色タクシーは 1% しかないので,目の前のタクシーがレモン色の確率はなかなか上がらない.要するに,繰り返しになるけど,めったに起こらないことは誰が何と言おうとめったに起こらない,ということだ.

レモン色タクシーの割合が増えれば,目の前のタクシーがレモン色である確率も一気に上がる.もし 50% のタクシーがレモン色なら,おばあちゃんが「レモン色」と言えば,それがレモン色の確率は 95%.黄色もレモン色も同じ割合であれば,事前の情報は無いといっしょだから,正解率 95% のおばあちゃんがレモン色,と言えば,レモン色である確率は 95% だ.

ベイズの理論は日常生活で無意識に使われていると思う.何となく確率を思い浮かべていて,与えられた情報によってその確率を更新する.でも,きちんとやろうとすると,最初に思い浮かべる確率(事前確率)と情報の質をしっかり見極めなくてはいけない.それは非常に難しい.

例えば・・・
「今年中に結婚できる確率は 5% くらいかしらね」(事前確率)
→「でも、正解率 90% っていう噂の占い師に『結婚できますよ』って言われたわ」(情報)
→「今年中に結婚できる確率は•••?」(事後確率)

でもこの場合,事前確率の 5% は忘れ去られて,90% って結論づけるかな?あるいは 100% だと結論づけるかな?

「よく当たる」占い師に何か言われたら,レモン色のタクシーの話を思い出すといいかもしれない.「そんなこと起こるはずないじゃん」って思ったら,きっとほんとにそんなこと起こるはずないんだと思う.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 月曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 01-02-2008

確率を学ぶ時に必ず通るベイズの法則.物語にしてみた.語り手が女の子なのはなぜだろう?昔書いた物語の主人公も女の子だったなぁ.あ,あれはメス猫か.

--- --- --- ---

ハーイ,わたしの名前はシャーリー.マンハッタンに住んでるの.

昨日,おばあちゃんといっしょにマンハッタンの下の方,ビジネス街の方に行ったんだけど,その時の話.レモン色タクシー知ってる?ニューヨークのタクシーってみんな黄色って思われてるけれど,少しだけ,レモン色タクシーが走ってるの.みんな「幸せのレモン色タクシー」って呼んでるわ.レモン色タクシーに乗った日は何かいいことがあるからなの.でもぱっと見ただけじゃ,なかなか違いが分からないのよ.レモン色タクシーに乗ってるのに気づいていない人もいっぱいいるわ.気にしてないのね.わたしはタクシーに乗る時は,いつもちゃんと気をつけて見てるの.でも,まだ幸せのレモン色タクシーに乗ったことはないの.レモン色タクシーが来るまでずっと待っているっていうのはいけないのよ.停まってくれたら,黄色のタクシーでも乗らなきゃいけないの.そのすぐ後ろにレモン色タクシーが来ててもね.幸せって,向こうからやってくるのを待ってなくてはいけないからよ.自分から向かっていっちゃだめ.

わたしの友達はみんな「幸せのレモン色タクシー」のことを気にしてるわ.大人はそうでもないみたい.なんでかって言うと,目が悪くなると黄色かレモン色かよくわからなくなっちゃうのよ.でも,わたしのおばあちゃん,もうすぐ70歳なんだけど,すごいんだから.ちゃんと黄色のタクシーとレモン色タクシーの区別ができるの.わたしが幸せのレモン色タクシーが好きっていうの知ってるから,「また黄色のタクシー,残念ね」とか言うのよ.おばあちゃんといっしょにいた時にレモン色タクシーを見かけたのは一度だけ.その時もおばあちゃん,ちゃんと見えていたわ.「レモン色のタクシーよ」って.でも乗れた訳じゃないの.見かけただけ.おばあちゃんの視力は,折り紙つきなのよ.おばあちゃんの目医者さんは,目の検査をする時にタクシーの色を使って検査するの.微妙な色の違いも見えるかな?って.黄色のタクシーとレモン色タクシーの写真を使って,「これはどちらですか?」ってね.

普通,おばあちゃんの年齢だと,全然分からないんだけど,おばあちゃんは95点だったのよ.黄色のタクシーを見たら95%の確率でちゃんと黄色って当てたし,レモン色タクシーも95%の確率でレモン色って当てたのよ.目医者さんもびっくりしてたわ.若い人でも,なかなかいないんだって.95点って.

そう,それで昨日の話ね.朝からおばあちゃんと出かけて,用事を済ませて家に帰るところだったのよ.まだ朝の11時頃だったわ.マンハッタンの下の方で,タクシーを待っていた時ね.わたしが靴のひもを結びなおそうとしてかがんでる時にちょうどタクシーが来たの.靴のひもは完全にはほどけてなかったんだけど,ちょっとゆるくなってたの.わたしってこう見えて結構慎重で用心深いのよ.靴のひもは,たいていほどける前に結びなおすわね.ちょうど,靴のひもを結びなおした時に,おばあちゃんが「シャーリー!レモン色のタクシーよ.レモタクが来たわよ」って言ったの.びっくりしちゃった.おばあちゃんが「レモタク」なんて言うんだもの.わたしが喜ぶと思って,若い人の言葉遣いをするのね.やさしいおばあちゃんなのよ.でもわたしは「レモタク」なんて言わないわ.そんな風に略してしまったら幸せ加減も減ってしまいそうじゃない?長ったらしいけど,いつも「幸せのレモン色タクシー」って言わなくてはいけないのよ.黄色のタクシーは「キイタク」って言ってもいいけどね.

とにかく,おばあちゃんの「レモタク」に驚いてからすぐ,事の重大さに気づいたわ.ついに幸せのレモン色タクシーが来たのよ.すごくうれしくってどきどきしたわ.でもね,「でも・・・」って思ったの.こんなに喜んじゃっていいのかしら?って.まだ自分で確認した訳じゃないのに.おばあちゃんのこと大好きだし,おばあちゃんがすごいっていうのも分かってるけど,こんなに喜ぶのはまだ早いわ,って思ったのよ.わたしって結構慎重で用心深いって言ったかしら?

そう思った時はまだ地面しか見えてなかったわ.靴のひもを結んでいたからね.だからタクシーが見える前にいろいろ考えてみたわ.

おばあちゃんは黄色のタクシーを見たら95%の確率で黄色って分かるの.
おばあちゃんはレモン色タクシーを見たら95%の確率でレモン色って分かるの.
ほとんど間違わないってことね.

でも,その時わたしが知りたかったのは,おばあちゃんが「レモン色タクシーよ」って思った時にほんとにレモン色タクシーを見てる確率なのよ.だいたい,レモン色タクシーってすっごくめずらしいのよ.マンハッタンを走ってるタクシーは1万台くらいだけど,レモン色タクシーってたったの100台くらいしかないのよ.1%ね.

詳しい計算は出来なかったけれど,その時タクシーの色を見る前に,このタクシーがレモン色の確率は95%よりも1%の方に近いはずだわ,って気がしたの.1%って言ったらすごく小さいわ.だから,あまり期待しちゃいけなさそうね.タクシーの色が目に入る前にそんなことを考えたのよ.

そんなに短い間にそんなにいろいろ考えられる訳がない,って思うでしょ.そう,ちょっとだけずるしたわ.目をつぶってたの,完全に立ち上がるまで.でも,立ち上がった時には考え終わっていたからすぐに目を開けたわ.

やっぱり普通の黄色いタクシーだったの.でも全然がっかりしなかったわ.どちらかというと,自分の考えが合っていた気がして,なんだかうれしくなったの.それでニコニコしていたんだと思うわ.おばあちゃんもそんなわたしを見てニコニコしてたの.「シャーリー,幸せのレモン色タクシーよ」って言いながら,その黄色いタクシーに乗ったのよ.わたしはおばあちゃんに,「今日は何かいいことがありそうな気がするわ」って言ったわ.ほんとにそんな気がしたの.

--- --- --- ---

この話には下地がある.僕が大学3年生だった時に,統計学の基礎というようなクラスでベイズ理論を学んだ時に,タクシーの色の違いが判るニューヨーク在住のおばあちゃん(フィクション)を例にしてベイズ理論の説明をした新聞記事か何かを読んだ.そこでのタクシーの色は chartreuse だった.そんな色聞いたこと無かったけれど,この時に覚えた.ニューヨーク,タクシーの色,おばあちゃん,でベイズ理論のお話が書きたかっただけです,あしからず.

実はこのお話には教訓がたくさんある.そのうちのひとつは「老人の言うことは信用できない」ではなくて,「確率の低いことは,誰が何て言ったって確率は低い」ということだ.

レモン色の確率は何もない状態では 1% だったけど,計算してみると,おばあちゃんにレモン色に見えた時点で 16% にあがる.かなり高くなったけど,ほぼ間違えない (95%) おばあちゃんが言ったにしては,なんとなく低い気もする.ま,そういう訳だ.

続く

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 水曜日|統計学コメント(2)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 12-13-2007

いろんな人がいろんな所でデータを集めている.データがそろうと,その後どうしたらいいのか判らないので統計学者のところに来る.

でも,本当はそれでは手遅れなことが多い.偏り(バイアス)のない結論を導くには偏りのない実験デザインが必要.

実験の計画の段階で統計学者に相談することがとても大切なんだけどね.

フィッシャー (Sir Ronald Fisher) の言葉を借りると・・・To call in the statistician after an experiment is done may be no more than asking him to perform a post-mortem examination: he may be able to say what the experiment died of.

実験が終わった後に統計学者に助言を求めるのは,死後解剖を依頼するのに似ている.実験の死因が何だったかを教えてくれるかもしれない.

(書かれたものではなくて,とある演説で言ったことなので,少し違ったバージョンで語り継がれている場合もある)

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 木曜日|統計学コメント(2)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 12-11-2007

自分で考えるのがめんどくさかったので,Lindley and Phillips (1976) にあった例をそのまま.

画びょうを投げて上向き (逆さのT) に着地する確率 (p) を求めたい. 12回投げたら 9回上向きで着地した.

コインと違って,画びょうは五分五分じゃないよなぁ,ということで p=0.5 を帰無仮説にして P値を計算しよう.

『12回投げて上向きに着地する回数を数える』 という実験デザインだったら,上向きに着地する回数は Binomial(3,.5) で,それを使ってP値を計算すると,7.3% になる.

『9回上向きに着地するまで投げ続ける』 という実験デザインだったら,9回目の上向き着地までの下向き着地の数は Negative Binomial(9,.5) で,それを使ってP値を計算すると 3.3% になる.

『特にデザインのことなんか考えずに実験を始めて,12回投げたところでコーヒー用のお湯が沸いたので実験を終了した』 だったらP値は計算できない.

どうしようか?

Conditionality Principle / Formal Likelihood Principle によるとどの実験かは関係ないはずだけどね.

中間解析によって途中で停止の選択肢もある臨床試験をした時に,平均だか治癒確率だかを推定したいとする.その時,中間解析の結果(途中で停止しませんでした)の条件付き conditional) の推定をするかどうか?というのを考えていたら Likelihood Principle に行き着いた.

難しい問題だったので,本棚の整理 をした.

Lindley, DV and Phillips LD (1976), "Inference for a Bernoulli Process ( a Bayesian View). American Statistician, 30: 112 -119.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 火曜日|統計学コメント(0)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 12-10-2007

コインの表が出る確率を推定しなさい,という問題があったとする.

A君は「このコインを20回投げてみよう」と決めて20回投げたところ,10回表が出た.

B君は「このコインを10回表が出るまで投げてみよう」決めて10回表が出るまで投げたところ,20回目に10回目の表がでた.

表が出る確率についてのふたりの結論はいっしょになるべき?

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 月曜日|統計学コメント(2)

Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 12-06-2007

グリーンカードを抽選であげてしまう DV (Diversity Immigrant Visa) というシステムがある.当たればグリーンカードを手に入れる権利が得られる.これの当たりの数は毎年発表されるのだけど応募の数が発表されない(らしい)ので,倍率はわからない.国別に違って,日本人が当たる確率は 1% とよく言われる(らしい).

DV プログラムじゃなくて普通に申請する方法を教えます,というサイトで以下のようなことが書いてあった. でも、永住権抽選に当たる確率ってご存知でしょうか?1%以下です。ということは、1年に1回の抽選に応募し続けても、確率的には、当選するまで100年かかるってことですよね? ですよね?

そうかな?
ま,「平均で100年かかる」と言えば,間違っている訳ではないけど,この場合,平均を考えることが間違いだ.

他にも 『サイコロで1が出る確率は 1/6 だから1が出るまでに6回サイコロを振らなくっちゃ.』 とか考えがち.

数字が小さいサイコロの例で考える.

確かに平均では,1が出るまでサイコロを振る回数は6回になる.でも6回以上サイコロを振らないと1が出ないという確率はおよそ 33%.さらに5割以上の確率で4回以内で1度は1が出る.

でも平均が6なのは,時々運が悪いとかなりの回数サイコロを振らないと1が出ないことがあるから.10回以上かかる確率は約 16%,20回以上かかる確率も 3% 弱ある.そういう極端なケースのせいで,平均が右側に引っ張られてしまう.

DV プログラムの当選確率が毎年変わらずに 1% だとする.確かに平均だと当たるまでに 100年かかる.でもこの平均って何?たくさんの人が一年に一度,このくじを引いて当選するまで何年かかったか記録する.その平均を算出したら100年ということだ.でも100年以上かかる確率は 37% にすぎない.約半分以上の人は70年以内で当選する.

何年くらいかかるのかな?というのを表にした.

~年以内に当選する確率
1010%
2018%
3026%
4033%
5040%
6045%
7051%
8055%
9060%
10063%
15078%
20087%
25092%
30095%
40098%
50099%

運がいい 10% の人たちは10年以内で当たる.運がいい半分の人たちは70年以内で当たる.運が悪い 5% の人たちは300年たってもまだ当たらない.こういうわずかな運が悪い人たちが平均を大きくしている.

ところで 確率が 1/n のことが n 回以内で起こる確率は n に関係なくおよそ 1-1/e = 63% になる (n が大きければ). e は自然対数の底.(n が小さいとちょっとずれるけど.サイコロでは 67%だ.)

憶えておくと日常生活のいろんな場面で役に立つ.

でも,これが役に立つ日常生活はちょっといやかもしれない.

平成17平成18平成19平成20平成21平成22平成23平成24平成25平成26平成27平成28平成29平成30 令和元 令和2 令和3 令和4 令和5 令和6 令和7 令和810111210111213141516171819202122232425262728293031日 木曜日|統計学コメント(2)

ブログ検索

カレンダー

JanFebMar AprMay JunJulAugSepOctNovDec 2005200620072008200920102011
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 - -

最近のコメント

履歴

2020年01月 (1)

2019年11月 (1)

2019年10月 (1)

2019年08月 (1)

2019年07月 (1)

2019年05月 (1)

2019年03月 (1)

2019年02月 (1)

2019年01月 (1)

2018年12月 (1)

2018年11月 (1)

2018年10月 (1)

2018年09月 (1)

2018年08月 (1)

2018年07月 (1)

2018年06月 (1)

2018年05月 (1)

2018年04月 (2)

2018年03月 (1)

2018年01月 (1)

2017年12月 (1)

2017年11月 (1)

2017年10月 (1)

2017年09月 (1)

2017年08月 (1)

2017年07月 (1)

2017年06月 (1)

2017年05月 (1)

2017年04月 (1)

2017年03月 (1)

2017年02月 (1)

2017年01月 (1)

2016年12月 (1)

2016年11月 (1)

2016年09月 (1)

2016年08月 (1)

2016年07月 (1)

2016年05月 (1)

2016年04月 (1)

2016年03月 (1)

2016年02月 (1)

2016年01月 (1)

2015年12月 (1)

2015年07月 (1)

2015年06月 (2)

2015年05月 (2)

2015年04月 (3)

2015年03月 (2)

2015年02月 (1)

2015年01月 (3)

2014年12月 (1)

2014年11月 (1)

2014年10月 (2)

2014年09月 (2)

2014年08月 (2)

2014年07月 (1)

2014年06月 (1)

2014年05月 (2)

2014年04月 (1)

2014年03月 (2)

2014年02月 (1)

2014年01月 (2)

2013年12月 (1)

2013年11月 (3)

2013年10月 (2)

2013年09月 (1)

2013年08月 (4)

2013年07月 (1)

2013年06月 (2)

2013年05月 (2)

2013年04月 (3)

2013年03月 (1)

2013年02月 (1)

2013年01月 (4)

2012年12月 (1)

2012年11月 (3)

2012年10月 (1)

2012年09月 (1)

2012年08月 (3)

2012年07月 (3)

2012年06月 (2)

2012年05月 (6)

2012年04月 (2)

2012年03月 (8)

2012年02月 (2)

2012年01月 (1)

2011年12月 (6)

2011年11月 (5)

2011年10月 (4)

2011年09月 (6)

2011年08月 (9)

2011年07月 (5)

2011年06月 (5)

2011年05月 (5)

2011年04月 (6)

2011年03月 (17)

2011年02月 (6)

2011年01月 (10)

2010年12月 (10)

2010年11月 (4)

2010年10月 (6)

2010年09月 (5)

2010年08月 (11)

2010年07月 (8)

2010年06月 (8)

2010年05月 (3)

2010年04月 (8)

2010年03月 (11)

2010年02月 (4)

2010年01月 (8)

2009年12月 (6)

2009年11月 (6)

2009年10月 (6)

2009年09月 (7)

2009年08月 (6)

2009年07月 (10)

2009年06月 (10)

2009年05月 (10)

2009年04月 (6)

2009年03月 (7)

2009年02月 (9)

2009年01月 (12)

2008年12月 (6)

2008年11月 (10)

2008年10月 (8)

2008年09月 (9)

2008年08月 (12)

2008年07月 (8)

2008年06月 (12)

2008年05月 (12)

2008年04月 (12)

2008年03月 (11)

2008年02月 (10)

2008年01月 (10)

2007年12月 (12)

2007年11月 (14)

2007年10月 (13)

2007年09月 (11)

2007年08月 (16)

2007年07月 (10)

2007年06月 (10)

2007年05月 (6)

2007年04月 (10)

2007年03月 (13)

2007年02月 (10)

2007年01月 (8)

2006年12月 (13)

2006年11月 (15)

2006年10月 (9)

2006年09月 (8)

2006年08月 (18)

2006年07月 (14)

2006年06月 (16)

2006年05月 (23)

2006年04月 (20)

2006年03月 (12)

2006年02月 (14)

2006年01月 (21)

2005年12月 (20)

2005年11月 (17)

2005年10月 (18)

2005年09月 (16)

2005年08月 (10)

2005年07月 (6)