Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 06-19-2009
一昔前までは,統計解析ソフトは文字列をあまり得意としていなかったので, Yes は 1で, No は 0,とかいうように書いていた.例えば人種にしても,どこかに解読表を用意しておいて,1は白人,2は黒人,3はアジア人とか.
最近はほぼ不必要だ.
前置きおわり.
このあいだ受け取ったデータに不可解なフレーズが数多くあった.
例: unk0wn とか carci0ma とか lymph 0des とか 0t available とか.
もともとは,それぞれ unknown(不明)/ carcinoma(癌腫)/ lymph nodes(リンパ節)/ not available(データありません) だ.
たぶん,邪悪で無能なエクセルで「全ての no よ,0 になれ」とかやってしまったのだろうね.
こういうフレーズで統一されているのでそのまま解析しても何ら問題ないのだけど,あるいは,僕がRを使って直すのは非常に簡単なんだけど「もうちょっとちゃんとチェックしてからデータを送りなさいよ」という警告をこめて送り返した.この他にもスペルミスだとか,ささいなミスが多く見られたので.
でも,かなり面白かったので,その日は気分爽快にすごすことができた.役得だ.