上図:ワシントンDCでの、iPhoneユーザ(赤)、Androidユーザ(緑)、Blackberryユーザ(紫)の分布
Gnip、mapbox, Eric Fischerのコラボによる可視化プロジェクト、navigable mapsは、2011年9月以降のツイートを集めたデータベース。そのデータは、Twitter Firehouse(公開ツイートを取得するAPI)の膨大なツイートから、ジオタグがついたツイートを抜き出したものだ。
The Atlantic Citiesのライター・Emily Badgerは、この巨大なツイートデータをまた別な視点で可視化した。ユーザーがツイートに使ったモバイルフォンの種類を都市のマップ上にプロットしたのだ。上の図は、ワシントンD.C.の分布。赤がiPhone、緑がAndroid、紫がBlackberryを表す。
大局的に見れば、赤=iPhoneユーザは都市の中心部に、緑=Androidユーザは周辺に分布していることがわかる(予想通り、Blackberryほとんど存在しない)。Badgerは、このユーザ分布が人々の裕福さと相関があることを発見した。
「iPhoneユーザは街の中でも高所得地域(およびビジネスの中心街)でより顕著です。一方、Androidは低所得地域に分布しています。」
Emily Badgerの分析は興味深い。ネイト・シルバーの言うとおり「部屋の中のゾウ」を見せてくるのが、データサイエンスの真骨頂だろう。(データはすべてを教えてくれない - サイエンスメディアな日々、インフォグラフィクスな日々)
しかしその一方で、個人のデータが予想もしない分析に使われているとすると、少し怖くもなる。データはあくまでも人の行動の結果でしかなく、一部でしかない。手に入ったデータだけで、現実や未来がすべて予想できると考えるのは危険だ。時には、データに振り回されない姿勢、予想を疑うことも大事になる。そのためには、自分自身の中に意味のあるデータを蓄積すること。つまり、自分自身の経験や知識を広げることだと思うのだ。
外にあるデータと自分の中にあるデータ。その2つのバランスがとれてはじめて、意味のあるデータサイエンスが行える。