Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 11-25-2005
「トリビアの泉」という番組がある。面白いのでよく見る。その中の「トリビアの種」のコーナーで、どうしようもない事を調査する。時々、サンプルを取る必要のある調査の場合、その前に統計学に詳しい学者が出てきて「2000人のサンプルを取りなさい」というようなことを言う。
これを見ると、性格上、あるいは仕事柄、いろいろと考えてしまう。サンプルの数だけでなく、実験そのものについて。例えば、最近の例。「双子の女の子は好みの男性のタイプがいっしょか?」というのが疑問。これを調べるのに、10人の男の人の顔写真を用意して、70組の双子に選んでもらう。同じ男の人を選んだのは 70組中 51組だった。73%。
でも、この 73% という値にほとんど意味はない。ま、細かいところはおいておいて、大きいところだけ。まず、選択肢が 10人じゃなかったら賛成する双子の割合は変わる。2人の男の人から・・・となったら、同じ人を選ぶ双子の割合は増える。よしんば 10人というのを変えなくても、ずばぬけてかっこいい人がひとりいたら、同じ男性(そのかっこいい人)を選ぶ双子の割合は上がる。だから、この 73%からは何も言えない。
こういう実験の設定に左右される要素をなくすには、「双子じゃない人たちと比べた場合、双子は同じ男性を選ぶ確率が高いか?」というように問題設定を変えるのが適当。そうすると、選択肢の数、選択肢の内容に影響されにくくなる。「双子の方が確率が高い」という結論を導きたいのだから、逆に言えば、双子以外でも同じ男性を選ぶ設定は避けるべき。という訳で、選択肢がたったの 2つ、とか、一人だけ極端にかっこいい人がいる、という設定は避けたい。なるべく、人気が分散する10人を選んで、双子の好みが双子以外のペアの好みと比べて一致する割合が多いかどうかを調べればいい。
何 %という数字はでないけれど、双子の方が一致する確率が高いかどうかの結論は出せる。
例えば双子 10組と、友達同士 10組に、それぞれ好みの男性を選んでもらう。それで一致する双子の割合、一致する友達の割合を比べて、有意差があるか調べればいい。例えば双子では 10組中 6 組 (60%)、友達では 10組中 5組 (50%) が一致したとする。ここから、双子の方が友達同士より男性の好みが似る傾向が強いという結論が出せるか?言い換えれば、このサンプルの 60% と 50% という差は有意かどうか?
10組というのを多くすれば、より小さな差でも有意と結論付けることができる。同じ 60% 対 50% でも、1000組中 600組 対 1000組中 500組だったら、大きな違いと言える。でも 1000組も調べるにはお金も時間も労力もかかる。10組じゃなんか少なすぎるし、1000組では多すぎる。この間に、ちょうどいい数がありそう。その数(サンプルサイズ)を見つけるのが統計学者の仕事の一つ。
でも、もう少しよく考えるとサンプルサイズは減らせる。友達ペアは不要。というのは、双子をいっぱい集めれば、双子以外のペアもたくさん出来るから。例えば、双子が 20組いるとする。とりあえずその 40人に好みの男性を選んでもらって、好みが一致した双子の割合を求める。
次に、40人をふたりずつの 20組に分ける。分け方は無数にある。すごくすごく多いから、その分け方全てを調べるのは無理。ということで、コンピュータを使って無作為に 20組にわける。それで好みが一致したペアの数を数える。それをたくさん繰り返す。無作為に 20組に分けて、好みの一致したペアの数を数える、というのを仮に 10,000回繰り返したとする。そうすると、だいたい無作為な非双子ペアでは、どれくらいの割合で好みが一致するかが分かる。これと、最初に求めた双子ペアの好みの一致する割合を比べる。
こういう考え方は実はかなり古くからあるのだけど、いろいろ計算するのにコンピュータが不可欠なので実際に使われるようになったのは最近。permutation test という。日本語だと、「並べ替え検定」というらしい。
なかなか面白そうな実験だけど、誰かやらないかなぁ。