Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 06-07-2007
データの解析をしている.困ってしまった.
ある病気になる確率をある薬を飲んでいた人と飲んでいない人で比べる.
で,その病気になる確率は年齢が上がるに従って上がるので,年齢も考慮にいれなくてはならない.アメリカでのデータなので人種も考慮にいれたい.ところが,それぞれの人種の割合を年齢別に見てみたら下のグラフのようになった.白が白人で黒が黒人で水色は「不明」.人種を聞かれても答えたくない人はいっぱいいるから,「不明」というのはかなり多い.このグラフを見て困ってしまった.どう解析していいのか分からない.40代 50代では,人種不明の人の割合は比較的少ないけど,年齢が上がるに従って人種不明の割合が増えて,70代半ばからはほぼ 100%となる.
データを取った人に聞いても,なんでこうなったか分からないという.
このまま解析したらこの病気になる確率と人種もかなり密接な関係がある,という結論になる.人種の分布が年齢によってかなり違うので.
imputation (欠損値の補填)を試みたいところだけど,いろいろ勉強したところ,こんなデータでは難しいらしい,ということが分かった.
困ってしまったなぁ.
年齢が高いとこの病気の人の割合が高い.このデータだと,年齢が高いと「人種不明」の人の割合が高い.何も考えずに解析すると「人種不明」の人ほどこの病気の割合が高い,という結論になる.この病気になりたくなかったら,ちゃんと人種を答えなさい,という結論にしちゃおうか?
ま,言うまでもないだろうけど前の段落で書いたことは全くのジョークです.ジョークをジョークでした,っていうのは気が引けるけど,名前も職業も出して書いてるので万が一本気でこんなことを言っていると思われたら困るかもしれないので.困ってしまった,と言うのはほんとだけどね.