第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り−

2011/04/10 "第10回 データマイニング+WEB 勉強会@東京−2nd Week−大規模分散 機械学習 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。

以下、全講師資料、関連資料、ツイートまとめです。


AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(90分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]


1.「モバゲーの大規模データマイニング基盤におけるHadoop活用」(発表30分 + 議論45分)

講師 : id:hamadakoichi [Twitter:@hamadakoichi]

『モバゲーの大規模データマイニング基盤におけるHadoop活用』−Hadoop Conference Japan 2011− #hcj2011

View more presentations from Koichi Hamada

 ソーシャルプラットフォームの大規模行動データを対象に、データマイニング機械学習の各種方法論を適用することにより、隠された法則を解明・より良い解を導出し、迅速なサービス洗練を実現しています。今回は、Hadoopを活用した、ソーシャルプラットフォームの大規模データマイニング基盤およびデータマイニング活用に関し紹介します。 Hadoop Conference Japan 2011 では330枚のチケットがわずか4時間でSold outとなり、直接会場で聞けなかった方も多いと思います。また時間上、一方向で話す形の進行でした。今回はみなのよりよい活用へ向けて、議論時間をたっぷり取り、双方向の進行を進めました。

関連資料:

2. 「Hadoop/Mahout/HBaseでテキスト分類器を作ったよ」(発表15分 + 議論25分)

講師 : [Twitter:@yanaoki]

Hadoop/Mahout/HBaseで テキスト分類器を作ったよ

View more presentations from naoki yanai

 Hadoop/HBase/Mahoutを使ってbayes/cbayes分類器を作ってみました。中〜大規模を前提としたシステム構成の紹介や、数パターンの、コーパス・Smoothing値・NGram、の組み合わせによる分類精度の結果が紹介されました。

参考資料:

3. 「Rにおける大規模データ解析」(発表30分 + 議論45分)

講師 : [Twitter:@sfchaos]

Rにおける大規模データ解析(第10回TokyoWebMining)

View more presentations from sfchaos

 Rは統計解析の有力なツールとして大いに注目を集める一方で,いくつかの問題点も合わせ持っています.その中でも,Rが大規模データの扱いを得意としない点はしばしば問題になります.この問題点に対する解決策がいくつか提案されています.今回は大規模データを共有メモリとして管理できるパッケージ,およびそれを用いた機械学習アルゴリズムを並列処理で実装した例について紹介されました.

参考資料: 

内容メモ:

  • bigmemory
    • 行列形式のみ。(ffは多数のデータ型を用意)
    • RAMに依存しない。要素数上限 2^52
    • 実行:split-apply-combine (doMC,combile, dopar)
    • foreach の効果大きい
  • biganalytics:解析(回帰、ロジスティック回帰、クラスタリング
    • bigkmeans。クラスターごとに並列計算。初期値を変えて分散計算。
    • foreach, cen = centers, combine = "function_name", %dopar%)
    • read.big.matrix, bigkmeans
  • bigtabulate: 大規模行列の要約・集計
  • bigalgebra: 大規模行列の演算
  • syncronycity:大規模行列の同期・排他制御
  • biganalytics

Rパッケージガイドブック

Rパッケージガイドブック

  • 作者: 岡田昌史,荒木孝治,伊藤康広,里洋平,高柳慎一,棚瀬貴紀,谷村晋,中谷朋昭,蓮見亮,林真広,樋口千洋,福島真太朗,牧山文彦,横山貴央,akira,mickey24
  • 出版社/メーカー: 東京図書
  • 発売日: 2011/04/09
  • メディア: 単行本
  • 購入: 2人 クリック: 1,298回
  • この商品を含むブログ (16件) を見る

4. 「Hadoopによる大規模ログ解析」(発表20分 + 議論30分)

講師 : [Twitter:@s_iida]

Hadoopを用いた大規模ログ解析

View more presentations from iidashuichi

 大規模ログ解析におけるHadoopの活用方法について。どのような種類のデータをどのようにしてHadoopに格納するか、格納されたデータをどのようにして集計するか、など。sqoop を用いたDBからのimportや非同期ログ収集、Pig による集計について概略が説明されました。

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果(継続したい良かった点、改善点)です。


XMind Share - XMind - Mind Mapping Software

推薦文献

Hadoop

Hadoop

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第10回 データマイニング+WEB 勉強会@東京−2nd Week−大規模分散 機械学習 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #10)-2nd Week-大規模分散 機械学習 祭り- - Togetter

講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: