Beautiful Data


Beautiful Data: The Stories Behind Elegant Data Solutions

Beautiful Data: The Stories Behind Elegant Data Solutions

ちまちまとBeautiful Dataを読み進めている。

Beatuful Dataは、同じくo'reillyのBeatiful Codeの続編的な位置づけの本である。Beautiful Codeが、20名余りの著者達が、それぞれ美しいと考えるコードについて書いたオムニバス形式の読み物であったのに対し、本書も複数の著者がデータについて語るオムニバス形式をとっている。


Beautiful Codeと本書の一番の違いは、本書で扱っているトピックがかなりフレッシュなものに偏っていることだろう。Beautiful Codeは正規表現やソートアルゴリズムなどの古典的な内容も多く含んでいたが、本書では著者達が今取り組んでいる、あるいは数年前に取り組んだプロジェクトに関する記事が多い。例えば、Radioheadのビデオ制作に関する記事があるのだが、このビデオがリリースされたのは2008年である。2009年に発行された文献を参照している記事もある。


また、記事の内容も集合知的なものが多い。大規模なデータ、様々な種類のデータに対し、それをどのように処理し、どのように有効活用するかという話がいくつもの記事で語られている。このあたりは本書の編者が集合知プログラミングの著者であることと関係しているのだろう。

集合知プログラミング

集合知プログラミング

正直なところ、最新のトピックだけでなく、もっと普遍的なトピックや昔話について語る記事が多くてもよかったとは思う。ただ、記事ごとのトピックの分散が小さいぶん、通して読めばデータを扱うことに関する最新の事情を俯瞰できると思う。


以下、自分が読んだ章。

Chap.1 Seeing Your Life in Data

個々のユーザが自分のデータを記録して、それを閲覧するための仕組みについて。携帯のGPSからCO2排出量を推定したり、Twitterに特定の形式で投稿することでユーザが食べたものなどをまとめて可視化するなど。まさにライフログ

Chap.4 Cloud Strage Design in a PNUTShell

Yahoo!クラウドストレージPNUTSについて。パラパラと眺めた感じでは設計方針についての平易な解説といった印象。

Chap.5 Information Platforms and the Rise of the Data Scientist

Facebookでのログデータ解析について、膨大なログデータに対してどのようにアプローチしたかという話。最終的にはHadoopに行き着いたらしい。

Chap.6 The Geographic Beauty of a Photographic Archive

Geographの取り組みの紹介と、場所の表現(road, hill, village)の可視化について。Geographはイギリスを1km四方のグリッドに分けて、それぞれのグリッドに代表的な写真を割り当てる取り組み。場所の表現のの可視化は、さまざまな観点からTreemap形式で可視化している。

Chap.7 Data Finds Data

Data Finds Dataとは、新しく追加されたデータと既存のデータとを照合して、ユーザに伝える価値の情報を自動的に抽出する技術のこと。そのような技術の必要性、課題について。

Chap.17 Superficial Data Analysis: Exploring Millions of Social Stereotypes

顔写真を評価するサービスFacestatの評価データ分析。分析結果をどうするというよりは、Rを使った解析方法の紹介といった感じ。