Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday, 08-19-2006
職業柄、グラフをよく描く。かなり真剣にグラフについて考える。ま、それが仕事だ。ここ10年ほどで、ある種の信念のようなものが確立されつつある。
○出来ることなら全てのデータを表示する。
○データの無いところは空白にする。
○見やすさ、飲み込みやすさの為に質を下げてはいけない。
医学の世界でよく見る下のようなグラフ。全くだめ。でもよく見る。みんながやってるから私も、という考えで広まって行ったのだと思う。たいてい、棒の高さが平均、ひげが標準偏差を表す。
何が悪いか。
○それぞれのグループの平均しか表されていない。これだけスペースを使って4個の平均だけ?
○余分なひげのせいで、見にくい。パッと見て高さの判断をしかねる。
○こんな風に標準偏差を付け足したところで大した情報ではない。
○どうせこれだけスペースを使うのなら全部のデータを表そうよ。全部でないにしてももっとたくさん。何で平均一個にまとめちゃうのさ。
○これが一番の問題点なんんだけど・・・基本姿勢として、データのあるところに描く。データのないところは空白にする。棒の頂上が平均だから、その上にもデータはあるんだけど、空白。それにひきかえ、多分0のすぐ上にはデータは無いのだろうけど、しっかり色が塗られている。それが気に入らない。
最近医学の世界でも、ちゃんとした学会誌ではこういう図はすぐ却下されるようになってきた。ダイナマイトプロットというらしい。マンガでよく見るダイナマイトのスイッチみたいしょ。
それでは、代わりに何を使えばいいのか。ダイナマイトプロットを使うようなデータはたいてい箱ひげ図できちんと表すことができる。箱ひげ図の解説はここではしない。検索すればみつかるよ。データの数が巨大でなければ、僕は全ての点を描く方が好きだけどね。
ところで上のグラフから何がわかるだろうか?
A と B、C と D はそれぞれ全くいっしょ。データのばらつきは C,Dの方が少し小さい、など。
ちゃんとしたグラフでデータを見てみよう。
大間違い。
もちろんこれは恣意的に極端な例を作ったのだけど、ダイナマイトプロットのそもそもの問題点は、恣意的にこういう例が作れてしまう、という点だ。だませる。全てのデータを描くと、そういうことはできない。