Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 12-02-2011
例えばナッシュビル動物園に来る人は何人グループで来るんだろうか?という疑問を持ったとする。一人で来る人もいるだろうし、恋人同士もいるだろうし、家族4人とか、家族+親戚9人とか、学校の行事で120人ご一行様、とかもあるだろう。
ま、とりあえずグループの平均サイズを知りたいとしよう。理由はなんであれ、ね。
チケットを自動改札機に通す時に(本当はナッシュビル動物園にそんなハイカラなものはないのだけど)、ランダムにピピッとなるようにして、それがなった人に「あなたのグループは何人ですか?」と訊いてデータを集める。
ランダム(無作為)にサンプルを選んでいるので、このサンプルの平均を求めればきっとバイアス(偏り)の無い推定ができるに違いない。
違いない?
★☆☆★
例:とある小さな動物園に昨日やってきたグループは全てで10グループでした。小さな動物園だし、昨日は雨だったから10グループしか来なかったのだ。
グループのサイズは 1, 1, 2, 2, 2, 3, 4, 4, 4, 10。一人で来た写真家、雨の中のデート、雨天決行の強行ツアーグループ10人など。
平均グループサイズは (1+1+2+2+2+3+4+4+4+10)/10 = 3.3 で良い?
もし、平均グループサイズをこう定義すると、前述の「ランダムにピピッ」というサンプルのとり方では、使えるデータは取れない。というのも、グループの中で誰かひとりでもサンプルに入ればそのグループの人数がデータとして記録されるので、大きなグループほどサンプルに入りやすくなってしまうからだ。10人のグループはサンプルに入る確率が1人グループの10倍ある。
この弱小動物園の例で計算してみると、この日の入場者数は 33 人だ。その一人ひとりのグループサイズを考慮すると、グループサイズ1が2人、2が6人、3が3人、4が12人、10が10人ということになる。平均だと( 1 + 1 + 2+2 + 2+2 + 2+2 + 3+3+3 + 4+4+4+4 + 4+4+4+4 + 4+4+4+4 + 10+10+10+10+10+10+10+10+10+10 ) / 33 = 5.2。
平均グループサイズは 3.3? 5.2? どっち?
コメント
サンプルは独立してることが条件になるんじゃないかと思ったのですが。
ってことで3.3かなと思います。
各サイズに重みを持たせると後者になるんでしょうか。。わかりませーん。
いや、よく分からないのですが、たぶんほんとに知りたいのは 3.3 の方だと思うのですが、そのためにはサンプルのとり方を工夫しないといけませんね、ということだと思います。