サイエンスメディアな日々   インフォグラフィクスな日々

サイエンスのこと・テクノロジーのこと・ビジュアリゼーションのこと

ツイートが可視化する多言語都市:Top 10 Twitter languages in Lodon visualized

http://www.guardian.co.uk/news/datablog/interactive/2012/oct/25/twitter-languages-london-top-ten

文化的多様性の高い国際都市では、様々な言語でツイートが飛び交っている。ユニバーシティ・カレッジ・ロンドンの大学院生、エド・マンレイと、スペーシャルアナリシス社のジェームス・チェシアは、2012年の3月から8月の間のロンドン市内でのツイートを、地図上にプロットした。言語の推定には、Google Chromeで採用されたアルゴリズムが使われた。

総数330万のツイートに使われた言語は66種類。そのうち92.5%は英語だ。それ以外の7.5%の内訳は多い順に、スペイン語、フランス語、トルコ語アラビア語ポルトガル語、ドイツ語…と続いている。それらを地図上にプロットすると、地域と言語の関連が見えてくる。例えば、ハイドパークの北にあるエドワード街で、アラビア語のツイートが多い等だ。

http://www.guardian.co.uk/news/datablog/interactive/2012/oct/25/twitter-languages-london-top-ten

ちなみに、この記事に対するコメントも参考になった。「このデータは居住者だけでなく、観光者の寄与が大きいのではないか。スペイン、フランス、ポルトガルは観光客が多い国だ。一方、トルコ語アラビア語は居住者が支配的だろう」との意見だ。そして「(観光客かどうかを調べるには)休日のツイートを調べれば良いだろう。」とアドバイスしている。確かに、休日と平日の比較は、ある程度観光客をスクリーニングできそうだ。

世の中に完璧なデータセットはなく、ほとんどの分析は入手したデータを機械的に統計解析するだけではすまない。入手できる限られたデータから、いかに隠された情報を得るか。その工夫がデータ・サイエンスの真骨頂であり、データ・サイエンティストのセンスに依るところが大きいのだ。

copyright(c) 2008-, Atsuhiko Yasuda All Rights Reserved.