Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 02-13-2009
最新の The American Statistician を読んでいたら 「ベンフォードの法則の簡単な説明」 (Fewster RM, "A simple explanation of Benford's Law" 2009),という論文が載っていた.面白かった.
-- -- -- --
ベンフォードの法則 とは・・・
「自然に発生したデータでは,一番上の位は1であることが多い」 というちょっと信じ難い法則.
いろんなデータに応用できる法則で,人口だとか,川の長さだとか,株価だとか,たくさんデータを集めてみると,その約 30% は一番上の位が1なんだそうだ.
この法則は19世紀末に発見されていたけれど,ちゃんとした数学的な証明が発表されたのは1995年だ.証明はすごく難しいらしい.ややわかり易い説明も検索すればみつかる.
わかり易く書いてある説明を読んでとりあえずは納得している.でもやっぱりいまいち信じ難い.
と言うわけで,確認してみた.
データは日本の市町村の人口.総務省:統計局のページからダウンロードできる.市町村名と数字だけの2行だけにしたデータは ここ.
データを読み込んで,きれいにして,一番上の位を調べる,というのは R でやった.
ちなみに,一番上の位の数字を取り出すには floor( x / 10^floor(log(x,10)) )
とかで出来る.
1,805の市町村の人口の一番上の位をあらわしたのが下のグラフ.(大きいバージョン)
青いラインは,ベンフォードの法則から予測される数.これによると,1と2で始まる人口がもう少し多いはずだけど,大まかに見てほぼ法則通りだ.確かに全体の3割ほどの市町村の人口は1で始まっている.
一番上の位 | 数 | 割合 | 1 | 525 | 29.1% | 2 | 272 | 15.1% | 3 | 247 | 13.7% | 4 | 184 | 10.2% | 5 | 166 | 9.2% | 6 | 126 | 7.0% | 7 | 108 | 6.0% | 8 | 101 | 5.6% | 9 | 76 | 4.2% |
ほかのデータでも確かめてみた.