読者です 読者をやめる 読者になる 読者になる

サイエンスメディアな日々   インフォグラフィクスな日々

サイエンスのこと・テクノロジーのこと・ビジュアリゼーションのこと

データは多面的にみること。これを肝に銘じておかねばならない

データサイエンス

f:id:yasuda0404:20150617124113j:plain

データに基づく分析は、一見、客観的で公平に思えるが、そこから導かれる結論は、時に人を誤った方向に導く。データは正しく、分析者に悪意や偏見はなく、分析に間違いがないにもかかわらず、得られた結果を見た人が誤った評価や判断をしてしまう、ということがあるのだ。

その具体的な事例を、先日も紹介した「直感を裏切る数学」からとりあげてみる。


表1は、フロリダ州でおきた殺人事件についての死刑判決と死刑判決以外の判決、それぞれの数を、被告人の人種 ーーーーーコーカソイド(いわゆる「白人」)とアフリカ系----- 別にまとめたものだ。これを見ると、コーカソイドが被告人の場合は死刑判決が11.0%であるのに対して、アフリカ系の場合は7.9%、すなわち、アフリカ系が被告人の場合の方が死刑割合が低い。この分析結果から、フロリダ州では(少なくとも死刑判決において)アフリカ系への人種差別はなく、むしろ優遇されているのではないか?と考えるのは自然な推論だろう。

しかし、それは、正しい評価なのだろうか?


表1 死刑判決の割合と被告人の人種

被告人の人種 死刑判決 死刑判決以外 死刑判決の割合
コーカソイド(白人) 53 430 11.0%
アフリカ系 15 176 7.9%


ここで、表1のデータにもうひとつの属性 ---「被害者の人種」---を加えてみる。すると、同じデータから、まったく違った事実が見えてくる。


表2 死刑判決の割合と被告人、被害者の人種

被告人の人種 被害者の人種 死刑判決 死刑判決以外 死刑判決の割合
コーカソイド コーカソイド 53 414 11.3%
コーカソイド アフリカ系 0 16 0.0%
アフリカ系 コーカソイド 11 37 22.9%
アフリカ系 アフリカ系 4 139 2.8%


表2を見ると、被告人がアフリカ系で、被害者がコーカソイドの時の死刑判決割合が突出して高いことがわかる。一方、被告人がコーカソイドで被害者がアフリカ系の場合は、死刑判決はゼロだ。

つまり、「コーカソイドがアフリカ系を殺しても死刑にはならないが、逆に、アフリカ系がコーカソイドを殺せば、死刑になる確率が高い」。これは、表1から受けた印象とは、まったく逆のものだ。


表1と表2はまったく同じデータにもかかわらず、どの属性に注目して分析するかで、そこから得られる評価や判断は、大きく変わりうることを示唆する。表2に、さらに他の属性ーーー収入や職業、居住地域などーーーを加えれば、また違った見方が生まれるかもしれない。


分析を行う以上、最終的にはなんらかの比較的シンプルな結論を出すことが求められる。その要請の中で、上の事例のような「ミス・リーディング」をできるだけ避け、少しでも「真実」に近づくにはどうすればいいのか。それは、できるだけ多面的なデータをあつめ、できるだけ多面的に見るよう、心がけるしかないだろう。結論を急ぎすぎると、気づかぬうちにトラップにはまって抜け出せなくなってしまう。そのことを、肝に銘じておく必要がある。

copyright(c) 2008-, Atsuhiko Yasuda All Rights Reserved.