第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました

2011/01/23 "第９回データマイニング+WEB 勉強会＠東京−2nd Week−方法論・ソーシャル祭り−"を開催しました。

※会場参加者ID写真（id:bob3 さんに感謝)

1st Week内容まとめ：
- 第９回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ祭り− を開催しました - hamadakoichi blog

会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

今回、第９回では初めて開催期間を２週に渡り開催しました(1/16, 23)。２週開催の目的は１．"多くのテーマを対象とし"、かつ、２．"各テーマにしっかりと時間を充て、深い議論を行えるようにすること" です。また2nd Week 1/23 は「豊富なテーマ」で構成しました。今後も「データマイニング+WEB 勉強会＠東京」を、講師、参加者、双方にとってよりよい会としていきたいと思いますので、今後ともよろしくお願い致します。

第10回は2月下旬か3月上旬開催に開催しますのでみなさんぜひご参加下さい(※AGENDAも本エントリに追って記載します)

以下、全講師資料、関連資料、ツイートまとめ、参加者の声です。

AGENDA：

■Opening：

O1.“Openinig Talk” (10分)

講師： id:hamadakoichi [Twitter:@hamadakoichi]

蓄積データを活用し継続的に活動進化できる世界を作りたい。蓄積データを有効活用したい人が、それを実現できるようにしたい。そう考え「データマイニング+WEB勉強会＠東京」を始めました。発表者・参加者にとってより有意義な場にするために、３つの進行方針を設定しています。会の最初にその進行方針を皆で共有し進めています。

オープニングトーク − 創設の思い・目的・進行方針

View more presentations from Koichi Hamada.

O2."参加者全員自己紹介" (50分）

・主催者 [Twitter:@hamadakoichi] 紹介・仲間募集資料 (期間限定公開)：
　私が話した主催者紹介資料です。メンバー募集部分は期間経過後、元の形に戻しますね。1st Week の「Mahout Canopy Clustering」資料に資料追加しています。また元資料の、Canopy Clusteringは通常の多くの手法と異なり、クラスタ数指定を必要とせず、指定距離離れたクラスタ算出を実現する方法です。Hadoop上で動作する大規模データマイニング・機械学習ライブラリ Mahoutでの実行法も含め話しました。

Mahout Canopy Clustering - #TokyoWebmining 9

View more presentations from Koichi Hamada.

■方法論：

1. 「初めてでもわかる Complementary Naive Bayes 分類器」(発表20分 + 議論20分)

講師： id:yanaoki [Twitter:@yanaoki]
　Complementary Naive Bayes。カテゴリに属さない要素を用いることにより通常よりはるかに高精度の判別を実現すると知られている。今回、初めての人でも分かる形で、Complementary Naive Bayesの基礎理論、通常のNaive Bayes との違いから、Hadoop/Mahoutでの実行方法と実行結果までお話し頂きました。

ComplementaryNaiveBayesClassifier

View more presentations from naoki yanai.

2. 「お金をかけず広告配信のログ分析システムを作った話」(発表15分 + 議論15分)

講師： id:gogokarubi [Twitter:@karubi]

分析システムを構築の際に、いかにお金をかけずに工夫しつつ分析に必要な要件を満たしたかについてお話し頂きました。

Web mining20110123 out

View more presentations from karubi.

3. 「Web-Minerな輩に送るマーケティング講座な感じ」(発表30分 + 議論30分)

講師： mmlab_jp [Twitter:@mmlab_jp]

Twm201001 alt1

View more presentations from Hitoshi NAKAGAWA.

4. 「Mecab以外の形態素解析 – 新たなわかち書き機能を実装してみた」(発表15分＋議論15分)

講師： id:rti [Twitter:@super_rti]

　OpenSourceの形態素解析エンジン・分かち書きソフトウェアとしてはMeCabが広く知られているが、最近、新たな分かち書きソフトウェアが誕生した。今回、その新たな分かち書きソフトウェアおよびその実装詳細に関しお話し頂きました。関連KeyWord：MeCab,TinySegmenter,IWordBreaker

資料：mecab以外のわかち書き by rti 7743 on Prezi

5. 「画像認識の初歩、SIFT, SURF特徴量」(発表15分＋議論15分)

講師： lawmn [Twitter:@lawmn]
　画像認識の領域で重要な SIFT、SURF特徴量。今回はそれら特徴量の抽出方法を概観し、その用途・応用について、初めての人でも分かる形でお話し頂きました。

画像認識の初歩、SIFT,SURF特徴量

View more presentations from lawmn.

SIFT = Scale-Invariant Feature Transform
SURF = Speeded Up Robust Features
Bag of features (Bag of keypoints)

6. 「ペアトレードを実装してみた」(発表15分+議論15分)

講師： id:yokkuns [Twitter:@yokkuns]

　統計的ペアトレードは、ペアの発見、共和分検定、取引ルールの定式化の3ステップで構成されています。今回は、各ステップの例を初めての人でも分かり活用できる形でお話し頂きました。

Tokyowebmining07 初めてでも分かるヘッジファンド入門

View more presentations from yokkuns.

関連資料：初めてでも分かるヘッジファンド入門

■ソーシャル：

7. 「"GraphDB徹底入門"〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜」(発表30分+議論30分)

講師： id:doryokujin [Twitter:@doryokujin]

　GraphDBは他のNoSQLと違ってかなり特異な構造を持ち適用範囲も大きく異なっているが、その事実はあまり知られていない。今回はGraphDBの本質、使い方・適用事例、各種GraphDB比較等を通じ、初めての人でも特性を深く理解し活用できる形でお話し頂きました。

「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜

View more presentations from Takahiro Inoue.

Property Graph
- NodeとEdgeのIndex（Mini Index）
- EdgeとPropertyのIndex（Normal Index）
あるNodeからの値算出
Graph Query = Graph Traversal
検索を優先したデータ構造。更新には弱い
GraphDBが適合する場面
- 大きなデータ構造の中で局所的なプロセスに着目する場合 (あるNodeに関する情報抽出、等)
- 経路探索などのGraphにもとづく演算
GraphDBが適合しない場合
- Graphの要素全体から検索するだけの場合 = Graph の関係を利用しない場合
各種GraphDB
- Neo4j, Orient DB がメジャー
GraphDBの統一アクセス
- Tinker Pop
- Gremlin

参考資料：明日から始めるログ解析２(後半部分) MongoDBとAjaxで作る解析フロントエンド＆GraphDBを用いたソーシャルデータ解析

7. 「Newman アルゴリズムによるソーシャルグラフのクラスタリング」(発表20分+議論20分)

講師： komiya_atsushi [Twitter:@komiya_atsushi]

　昨今よく耳にするキーワード「ソーシャルグラフ」。その可能性・活用方法について様々な企業に注目されています。今回はその「ソーシャルグラフ」を「どうすればクラスタリングできるのか？」という観点で、グラフに対するクラスタリングの基礎をお話し頂きます。具体的なクラスタリング手法としては Newman アルゴリズムをご紹介頂きました。

Newman アルゴリズムによるソーシャルグラフのクラスタリング

View more presentations from Atsushi KOMIYA.

Social GraphのClustering
- NodeをClustering対象とする
- Edgeを用い Clusteringとする
- Edgeの密度が高いNodeの集まりをCommunityとする。
- Edgeの密度が低い部分でGraphを分ける
Social Graphの階層的クラスタリング
- Communityの階層構造
良いGraph Clustering
- Community内のEdge密度が高く、Community間が低い
- Modularityで評価
Girvan-Newman Algorithm
- Topdown
- Sortest Path Betweenness のスコア(Shortest Pathを計算したときにそのEdgeを通る回数)で高いところを切る。
- Edgeを切り離すたびに再計算
Newman Algorithm
- Bottom Up
- betweennessは計算せずに処理
- Communityの組合せをいくつか選び Modularity が高くなる組合せを選ぶ

D. 「参加者の声・ディスカッション」 (60分)

進行： Twitter:@hamadakoichi

参加者全員での振返り結果（継続したい良かった点、改善点）、次回AGENDA。
後ほどアップします。

講師募集

データマイニング+WEB勉強会＠東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。

連絡先：

hamadakoichi blog