読者です 読者をやめる 読者になる 読者になる

サイエンスメディアな日々   インフォグラフィクスな日々

サイエンスのこと・テクノロジーのこと・ビジュアリゼーションのこと

平均値の罠:「シンプソンのパラドックス」

データサイエンス

f:id:yasuda0404:20150531081356p:plain


たとえば、ある国の政府がこんな分析結果を公表したとする。

> 年収1000万円以上、年収500万円〜1000万円未満、年収500万円以下、どの階層でも平均所得が上がっている

この分析は正しいと仮定して、これだけでこの国全体の平均所得は上がっている、と結論づけていいのだろうか?


部分の平均がすべて上がっているのだから、それを合わせた全体の平均も当然上がっているはず。そんなの当たり前だ、と直感的には思う。実は、これは神永正博著「直感を裏切る数学」で紹介されている事例。ほんのタイトルから察せられる通り、各層の平均値は上がっていても全体の平均値は下がっていることがありうる、というものだ。本の中にある具体的な例で説明する。


今、国民を、年収500万円を境にして「高所得者」と「低所得者」を分けるとする。そして国民は4人からなり、「高所得者」には年間所得1400万円と600万円の二人が、「低所得者」には300万円と200万円の二人がいるとする。(わかりやすく単純化した説明なので、国民が4人しかいない国なんてありえない、というツッコミはおいておく。)

この時、

  • 「高所得者」層の平均所得:(1400+600)÷2 = 1000万円
  • 低所得者」層の平均所得:(300+200)÷2 = 250万円

である。

ここで、不景気になって全員の所得が2割減ったとする。4人の年間所得は1120万円、480万円、240万円、160万円となる。ポイントは、第2位の人が「高所得者」層から「低所得者」層へ移ることだ。所得が減った後の各層の平均所得は、

  • 「高所得者」層の平均所得:1120万円
  • 低所得者」層の平均所得:(480+240+160)÷3 = 293.3万円

となる。すなわち、各人の平均所得は2割下がったのに、各層の平均所得は上がっているのだ!


このような「集団全体の性質と、集団を分けた時の性質が異なる」現象は、1951年、イギリスの統計学者、E.H.シンプソンが「分割表における相互作用の解釈」という論文の中で指摘した。このためシンプソンのパラドックスと呼ばれている。


シンプソンのパラドックスは、たとえばテストの平均点、人の体重や健康データなど、属性ごとにわかれた平均値が評価されているあらゆるケースでおきうるものだ。平均値というわかりやすい評価基準であるがゆえに、疑いを持たないことも多いかもしれない。


もしデータの分析が、部分別の平均値しか見ていなければ、すこし注意したほうが良さそうだ。データは景気回復を示しているのに「どうも景気が向上してる実感がない」という時も、もしかしたら…。

copyright(c) 2008-, Atsuhiko Yasuda All Rights Reserved.