サイエンスメディアな日々   インフォグラフィクスな日々

サイエンスのこと・テクノロジーのこと・ビジュアリゼーションのこと

データは多面的にみること。これを肝に銘じておかねばならない

f:id:yasuda0404:20150617124113j:plain

データに基づく分析は、一見、客観的で公平に思えるが、そこから導かれる結論は、時に人を誤った方向に導く。データは正しく、分析者に悪意や偏見はなく、分析に間違いがないにもかかわらず、得られた結果を見た人が誤った評価や判断をしてしまう、ということがあるのだ。

その具体的な事例を、先日も紹介した「直感を裏切る数学」からとりあげてみる。


表1は、フロリダ州でおきた殺人事件についての死刑判決と死刑判決以外の判決、それぞれの数を、被告人の人種 ーーーーーコーカソイド(いわゆる「白人」)とアフリカ系----- 別にまとめたものだ。これを見ると、コーカソイドが被告人の場合は死刑判決が11.0%であるのに対して、アフリカ系の場合は7.9%、すなわち、アフリカ系が被告人の場合の方が死刑割合が低い。この分析結果から、フロリダ州では(少なくとも死刑判決において)アフリカ系への人種差別はなく、むしろ優遇されているのではないか?と考えるのは自然な推論だろう。

しかし、それは、正しい評価なのだろうか?


表1 死刑判決の割合と被告人の人種

被告人の人種 死刑判決 死刑判決以外 死刑判決の割合
コーカソイド(白人) 53 430 11.0%
アフリカ系 15 176 7.9%


ここで、表1のデータにもうひとつの属性 ---「被害者の人種」---を加えてみる。すると、同じデータから、まったく違った事実が見えてくる。


表2 死刑判決の割合と被告人、被害者の人種

被告人の人種 被害者の人種 死刑判決 死刑判決以外 死刑判決の割合
コーカソイド コーカソイド 53 414 11.3%
コーカソイド アフリカ系 0 16 0.0%
アフリカ系 コーカソイド 11 37 22.9%
アフリカ系 アフリカ系 4 139 2.8%


表2を見ると、被告人がアフリカ系で、被害者がコーカソイドの時の死刑判決割合が突出して高いことがわかる。一方、被告人がコーカソイドで被害者がアフリカ系の場合は、死刑判決はゼロだ。

つまり、「コーカソイドがアフリカ系を殺しても死刑にはならないが、逆に、アフリカ系がコーカソイドを殺せば、死刑になる確率が高い」。これは、表1から受けた印象とは、まったく逆のものだ。


表1と表2はまったく同じデータにもかかわらず、どの属性に注目して分析するかで、そこから得られる評価や判断は、大きく変わりうることを示唆する。表2に、さらに他の属性ーーー収入や職業、居住地域などーーーを加えれば、また違った見方が生まれるかもしれない。


分析を行う以上、最終的にはなんらかの比較的シンプルな結論を出すことが求められる。その要請の中で、上の事例のような「ミス・リーディング」をできるだけ避け、少しでも「真実」に近づくにはどうすればいいのか。それは、できるだけ多面的なデータをあつめ、できるだけ多面的に見るよう、心がけるしかないだろう。結論を急ぎすぎると、気づかぬうちにトラップにはまって抜け出せなくなってしまう。そのことを、肝に銘じておく必要がある。

最高のイノベーションマインドは「ばかげたことを面白いと感じ、真剣に考える能力」:'What If' by Randall Munroe

f:id:yasuda0404:20150604140004p:plain


とんでもない質問に、科学と数学(と漫画と体力?)を駆使して、超まじめに回答する本、'What If'。その著者で、ギークたちの圧倒的な支持を得る漫画家(であり、元研究者)が、ランドール・マンローだ。彼のTEDトークには、'What If'の雰囲気がそのまま漂っている。


トークでは次の2つの質問と、彼の回答が紹介される。

  • ピッチャーが、光速の90%で投げたボールを打ち返したらどうなる?
  • すべてのデータをパンチカードに記録したら、グーグルの倉庫はどれくらいの大きさになる?


どちらの質問もぶっ飛んでるが、回答はさらにぶっ飛んでる。よくいえば「現代版フェルミ推定」、サブカル風に言えば「米国版『柳田理科雄』」だろうか。(注:フェルミ推定柳田理科雄も知らなくても、たぶん問題ありません。知っている時点ですでにギークの仲間なので、こんなたとえも不要でしょうから(笑))


最初は「ばかげた質問に何をまじめに答えてるの!」と思うのだが、聞いているうちに「大胆な仮定と論理的な思考」に思わず拍手を送りたくなってしまう。



さて、上の質問の「回答」はマンローのTEDトークを見てもらうとして、マンローの発想はもちろん洒落ているのだけど、マンローの2番目の回答へのグーグル(のエンジニア?)のレスポンスも洒落ている(どんなレスポンスなのかもまた、TEDトークをみてください)。

f:id:yasuda0404:20150604144155p:plain



マンローとグーグル(のエンジニア?)に共通するのは、「一見ばかげたことを、面白いと感じ、真剣に考える能力」だ。それは、ハイ・クオリティな「ウィット」といえるかもしれない。


実は、クリエイティブネスやイノベーション・マインドの源泉は、この手の「ウィット」にあるんじゃないだろうか。知識や経験、ビジネスマインドといったものも大切なんだろうけど、「誰もやっていないことをやる」ことが求められる未来の仕事は、それだけじゃ不十分だ。

アントレプレナーに求められるのは「斬新なアイデアを、さまざまな手を使って実現する」こと。それは、まさに'What If'と同じ姿勢であり、そのスターティング・ポイントは、マンローやグーグル(のエンジニア?)がもっているような「ウィット」だと思うのだ。


ばかげた質問を考えて、真剣に解答を探してみること。常に'What If'と問うてみること。これって、最高のイノベーション・マインドなんじゃないかな。


www.ted.com

警察に殺された人々のデータベース The Counted by the Guardian

f:id:yasuda0404:20150603112257p:plain

ショッキングな可視化だ。

英紙ガーディアンが公開した"The Counted: People killed by the Police in the US"は、今年、米国で警察によって殺された人のデータベース。


サイトでは、人種や州別の人数といった総括的なデータが可視化されている。たとえば人種別の数をみると、殺害されたアフリカ系アメリカ人の数は白人の半分程度だが、米国の白人の割合は約70%、アフリカ系は約12%であることを考えると、やはり殺害されたアフリカ系アメリカ人の数は多いことがわかる。また、人口あたりの「殺された」人数では、オクラホマ州が飛び抜けている、米国全体では毎月90人前後、すなわち毎日平均約3人が、警察によって命を奪われている、といったようなことが読み取れる。


全体的なデータだけでなく、「殺された」人に関する詳しい情報ーーーーー名前や年齢、武器携帯の有無、管轄警察、報告された罪状、殺された時の状況などーーーーーも知ることができる。サイトに並んだ顔写真の中にはスナップショットや微笑んだ顔もある。


'The Counted'に使われたデータは、警察やその他の公的機関が公開したものではなく、ガーディアンがクラウドソースなどから独自に入手・整理したものだ。そして、このデータは公開されていて、誰でもダウンロードできる。


危険を未然に防ぐ手段として武器を使うこと、そしてその結果、相手の命を奪うことは、違法ではないかもしれない。しかし、より強力な組織と武器を持つ警察が、現場で本当に武器を使わざるを得なかったのか、という疑問は、米国内でしだいに強くなっているようだ。

市民から発信されたオープンデータが、市民が公権力について考え、何かを変えるきっかけになるかもしれない。

小惑星のビッグデータ 'Asterank'

f:id:yasuda0404:20150602072855p:plain

私達の太陽系に無数に存在するといわれる小惑星。そんな小惑星の膨大なデータベースが、Asterankだ。

Asterankには60万個を超える小惑星のデータが蓄えられている。それらはNASAなどの既存のデータベースからあつめられただけでなく、科学論文などから質量や軌道を計算したものもある。

しかも、それら小惑星の膨大なデータを美しい3Dビジュアリゼーションとして見ることができる。角度を変えたり、拡大・縮小したり、表の中の小惑星のデータのテキストをクリックすると3D可視化の中の対応する点に視点が移動する、といったインタラクティブな機能も備わっている(これだけのデータを3Dで可視化しているにもかかわらず、操作は軽く、ストレスがない)。

しかも、アステロイドデータベースのユーザーは、小惑星の発見者になれるかもしれない。'Discover'のページに表示される星空の写真を見比べて「動く点」を探すことで、まだ誰も知らない小惑星を探すことができるのだ。現時点で30万近くの写真がユーザーによって分析され、1,700名を超える人々によって11,600以上の「小惑星候補」が発見されている、と書かれている。シチズンサイエンス(市民参加型科学)のメッカである'Galaxy Zoo'とよく似た方法だ。

f:id:yasuda0404:20150602070921p:plain

Asterankにはまた、太陽系外惑星(その多くはケプラー衛星によって発見された)や銀河内のダークマターを可視化したページもある。

f:id:yasuda0404:20150602071645p:plain

f:id:yasuda0404:20150602071715p:plain

太陽の周りをまわる無数の光点は眺めているだけでも美しいが、その背後にしっかりとした科学的な土台があるからこそ感じられる神秘なのだ。'Asterank'は、データも可視化も、第一級のサイエンティフィック・ビジュアリゼーションだと思う。

食品と健康についての研究成果に一喜一憂するのはやめるべし

f:id:yasuda0404:20150601103052p:plain

よく◯◯は体にいい、とか、☓☓を食べると癌になる、といった「研究成果」が発表されて一般メディアでも話題になる。でも、中にはお互いに矛盾するものもある。とにかく健康に関する「知見」や情報はあふれていて、消化しきれない感じがする。


冒頭の図は、各食品の癌リスクについて調べたさまざまな論文の結論をプロットしたものだ(*)。この図では、癌の誘引となるものが右側、癌を抑制するものが左側にプロットされている。

ワイン、トマト、紅茶、ミルク、コーヒー…など、さまざまな食品がプロットされているが、一目見て明らかなように、その評価はかなりばらついている。たとえば最近、健康によいと言われることが多いワインも、癌の原因となるという論文もある。一方、健康については旗色の悪いバターにも、癌を抑制する効果があるとする研究結果もある。僕はコーヒーをよく飲むので、「コーヒーは健康に良い」という記事をみつけるとつい喜んでしまうのだが、この図によれば癌を誘引するか抑制するかは拮抗している。残念ながら、コーヒーは「中立」と考えたほうがよさそうだ。

この図から言えるのは、発表される研究成果に一喜一憂するのはあまり意味が無い、ということだ。それぞれの評価が定まるには、まだかなり長い議論と淘汰の時間が必要だろう。そして、その結論が出る頃には、僕自身はもはや健康についての情報を必要としなくなっているかもしれない。


灰色のものに無理に白黒をつけるのは、非科学的な行為なのだ------。

そう納得して余分なストレスがなくなったおかげで、少し長生きできそうな気がする。



(*)同図はVOXの"Science is often falwed. It's time we embraced that."に掲載されていたものを転載した。データの出典は"American Journal of Clinical Nutrision"にのったShoenfeldとLoannidisの論文と記されている.

copyright(c) 2008-, Atsuhiko Yasuda All Rights Reserved.