統計データの扱い方に対する注意喚起記事第二号。
世の中には統計データがあふれているが、そこからの情報の引き出し方があまりにも雑すぎて呆れかえるばかり。
もうちょっと、慎重に統計と向き合ってもらうため、今回は統計から原因を引き出すことの難しさを解説してみる。
恣意的解釈の可能性
統計データというのは、それ自身はほとんど何も主張しない。そのデータに触れた人間が、自分の主張したい内容を補強してくれそうなときに取り上げ、持論に箔付けするために用いることが多い。
たとえばニコニコ動画のニュースにこんな記事が掲載されていた。
ここから重要な部分を引用するが、こんなことが書かれている。
嫌いな野菜の数と年収の相関性を調査した。年収200万円未満の割合を調べたところ、「嫌いな野菜が5種~6種」と回答した人は48.4%、「嫌いな野菜3~4種」の人は47.4%、「嫌いな野菜1~2種」の人は36.1%、「野菜好き(嫌いな野菜0種)」の人は31.9%となっている。嫌いな野菜の数が多いほど、年収200万円未満が占める割合が多かった。
嫌いな野菜の数と年収の相関性については、これ以外には語られていない。そしてこの記事の最後では、このように結ばれている。
早稲田大学国際教養学部理学博士の池田清彦教授は、野菜嫌いな人は年収が低いというデータについて「食べ物の好き嫌いは、小さい頃のしつけが関係しています。厳しくしつけをする親に育てられた人は素直に伸び、高収入につながるのではないか」と分析している。
私がこのブログを通して訴えたいことは、このような雑で短慮でいい加減な考え方から離れてほしいと言うことだ。
この記事では、年収200万円未満の割合しか語られていない。それ以外の年収の人には一言も触れられていない。
ということは、もしかすると年収1000万円以上の割合を調べてみたら、嫌いな野菜が多い人の方が割合が多いというような結果が出るかも知れない。少なくともこのデータからは、その可能性を否定することができない。
その段階で、どうして「厳しくしつけたから高収入に繋がる」などという結論が引き出せるのだろうか。
この早稲田大学の教授が馬鹿とは限らない。教授にはもっと多くの統計データが渡されており、十分な判断材料があったのかも知れない。しかし、この記事にはその結論を根拠づけるようなデータは存在していない。
よって、この記事を書いた人物が、この程度の内容で十分だと判断してその他のデータを省略したのだとすれば、この人のおつむに問題がある。
そもそもからして、たった一つの統計データから原因を突き止めようなどということに無理がある。諸君等ももっと慎重になり、「本当にそんな結論が出せるのかな?」と常に疑いの目をもって対してほしい。
マクドナルド版の類例
今でもあるか分からないが、以前はトレイの下の広告を裏返すと、「いらいらしやすい子と朝食を食べない子の相関関係」が書かれていた。
マクドナルド曰く、朝ご飯を食べない子はいらいらしやすい、だから朝ご飯を食べましょう、食べさせましょう、というわけだ。
確かに、そのグラフを見る限り、いらいらしやすいことと、朝ご飯を食べないことの間には相関関係が見られた。無関係ではないことが分かる。だが、だからといって「朝ご飯を食べないこと」が「いらいらしやすいことの原因だ」ということまでは分からない。
朝練のある部活というのもあるだろう。その部活にいらいらの元があり、その部活に遅れないようにしようとすると、朝ご飯を食べている余裕がないかも知れない。
勉強とか人間関係とか、何かしらストレスの元があるかも知れない。そのせいで夜にゆっくり眠れず、睡眠不足で寝坊してご飯を食べる時間がないケースもあるだろう。
もっと一般的に言えば、いらいらさせる原因がどこかにあり、それのせいでご飯を食べにくくなっている可能性がある、ということになる。この場合でも、いらいらしやすい子は朝ご飯を食べないという統計データが得られるだろう。
よって、そのデータからはどうしていらいらしているのかまでは読み取ることはできない。あくまでも、朝ご飯を食べさせたいと思っている誰かが、自説を補強するために持ち出して、「朝ご飯を食べましょう」と言っているに過ぎない。
もしいらいらの原因が朝ご飯を食べることを阻んでいるのだとしたら、無理矢理食べさせたところで何の意味もない。余計にストレスを溜めさせるだけになるだろう。
このように、一つのデータから原因を引き出すなどというのは無理がある。もしかしたらこうかな? という原因の予測には役立つが、予測が精一杯。その予想が正しいのかどうか、さらにデータを集めて確認しなければ、原因など突き止めようもない。
このことを、もっと多くの人に知っておいてもらいたい。
0 件のコメント:
コメントを投稿