第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました

2011/06/19 "第12回 データマイニング+WEB 勉強会@東京−機械学習MapReduce・大規模R解析 祭り−"を開催しました。

会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。


参加者ID・バックグラウンド一覧:

以下、全講師資料、関連資料、ツイートまとめです。


AGENDA:

■Opening Talk

O2.「参加者全員自己紹介」(90分)

進行 :[Twitter:@hamadakoichi]

1.「MapReduce〜入門編:仕組みの理解とアルゴリズムデザイン〜」(発表30分 + 議論30分)

講師 :[Twitter:@doryokujin]

MapReduceに関してコンセプト・基本概念・注意点・アルゴリズムデザインといった入門的な内容を紹介。

  • MapReduce
    • Split
    • Map & Serialize
    • Combine
    • Partition & Shuffle
    • Sort
    • Reduce
  • MapReduceを扱う際の注意点
    • Combiner Function が満たす2つの条件
      • 可換(Commutative)
      • 結合的(Assosiative)
  • MapReduce Design
    • Local Aggregation
    • Sorting
    • Simple Statistics
    • Sampling
    • Continuous MapReduce
    • Join

参考資料:

2. 「HapyrusでHadoopによる機械学習を簡単に」(発表20分 + 議論20分)

講師 : [Twitter:@fujibee]

HapyrusはHadoopアプリケーションを容易に作成・共有できるアプリマーケットかつHadoop PaaSウェブサービスです。Hadoopを用いた機械学習は、Mahoutなどで盛り上がっていますが、Example以上の実用アプリケーションは、環境構築・開発ともに敷居が高いと思います。Hapyrusを利用すると機械学習的アプリが小規模な事業者でも簡単に作成・実行出来ることを、デモを交えてお話しします。
参考資料:

  • 内容:
    • Hapyrus = HadoopSaas, Market Place
    • Scriptを共有できるサービス
    • Demo
    • 現在、新規登録可能: Hapyrus
    • 将来へ向けて

3. 「大規模データマイニングでのモデル探索手法:K-sample plot」(発表30分 + 議論30分)

講師 : [Twitter:@isseing333]

大規模データによるモデル作成を行うときに、分散処理+機械学習とは少し違ったアプローチを紹介します。統計的な性質を利用して、短時間で効率良くモデル探索を行うことのできる手法がKsPlotです。KsPlotによってストレスフリーなモデル探索ライフを!!
参考資料:

  • 僕の考えた統計学部カリキュラム
  • Rでのモデル作成
    • 線形回帰
    • SVM
  • 予測性能評価
    • R Square
    • Explained Variance
  • 予測誤差
    • 1-R-square
    • 1-Explained Variance
  • 計算時間
    • 線形回帰:0.01秒(1000 Sample) → 0.28秒(100万 Sample)
    • SVM : 0.15秒(1000 Sample) → 24時間でも終了しない (100万 Sample)
  • 解決策: Sampling
    • Sampling と Cross-Validation
  • K-sample Plot (KsPlot)
    • 中心極限定理、検出力を利用。サンプルを増やし予測性能の評価を行う。
  • 実行
    • Library(KsPlot)
    • KsamplePlot(Data1, yL)
  • 結果
    • 予測誤差の推定値、真の値を算出
  • SVM
    • Library(KsPlot)
    • Ksamples <- c(seq(10,100,10), seq(100,1000,100), seq(1000, 2000, 100))
    • KsamplePlot(Data1, yL, Ksample2,Method ="svm")
    • サンプル数指定できる。
  • 実行できる予測モデル
    • lm, svm, nn, rf, mars, cart, lasso + 簡単にできる caret文
    • 2値データの予測も可能 (現在は lm, svmのみ対応)
  • 提案
    • 集計、平均、グラフ化など粗解析は全データでやる
    • アルゴリズムは KsPlotで見通しを付ける
    • モデルを作る
  • Samplingのときの注意
    • 性質の異なる集団は分けて解析:男女、年代、地域
    • 重要で稀なデータの存在を集計・グラフ化時に注意。1人で数百万課金しているなど。
  • 変数が多い
    • サンプリングと別の問題、変数選択。
    • サンプリングデータで変数選択

4. 「Rで並列処理:foreachパッケージ解剖学」(発表30分 + 議論30分)

講師 : [Twitter:@tyatsuta]

解析データの絶え間ない大規模化にともない、解析処理の並列化がますます重要になりつつあります。今回は統計解析向けプログラミング言語Rの並列処理パッケージforeachの内部構造、マルチコア環境におけるパフォーマンス向上のポイントについて紹介。

参考資料:

  • 基本構文
    • library(foreach)
    • m <- matrix(1:9, 3, 3)
    • x <- foreach(j=1:3, .combine="c") %do% sum(m[,j])
    • c: concatenate
  • イテレータ
    • irnorm(3, count=4)
  • 並列化
  • doMC/multicore
  • doSMP/revolPC
  • doSNOW/snow
  • パフォーマンス上げるには
  • 効果
    • doMCで素直に書くのた一番早い
  • 内部構造

■声・議論:

D. 「参加者の声・ディスカッション」 (60分)

進行 : id:hamadakoichi [Twitter:@hamadakoichi]

参加者全員での振返り結果(継続したい良かった点、改善点)です。

MindMap-第12回データマイニング+WEB@東京 継続したい点・改善点・次回AGENDA


推薦文献

Hadoop徹底入門

Hadoop徹底入門

集合知イン・アクション

集合知イン・アクション

集合知プログラミング

集合知プログラミング

関連ツイート(Togetter)

「第12回 データマイニング+WEB 勉強会@東京−機械学習MapReduce・大規模R解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)

第12回 データマイニング+WEB@東京 ( #TokyoWebmining #12)-機械学習MapReduce・大規模R解析 祭り- - Togetter


講師募集

データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の TwitterGoogle Group へのメールへぜひご連絡下さい。

連絡先:

過去開催内容: