第12回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 12th)−機械学習MapReduce・大規模R解析 祭り− を開催しました
2011/06/19 "第12回 データマイニング+WEB 勉強会@東京−機械学習MapReduce・大規模R解析 祭り−"を開催しました。
会場提供し運営を手伝って下さった ニフティ株式会社 のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。
以下、全講師資料、関連資料、ツイートまとめです。
AGENDA:
■Opening Talk:
O1.「データマイニング+WEB勉強会@東京 について」(10分)
講師 : id:hamadakoichi [Twitter:@hamadakoichi]
オープニングトーク − 創設の思い・目的・進行方針 −データマイニング+WEB勉強会@東京
O2.「参加者全員自己紹介」(90分)
進行 :[Twitter:@hamadakoichi]
1.「MapReduce〜入門編:仕組みの理解とアルゴリズムデザイン〜」(発表30分 + 議論30分)
講師 :[Twitter:@doryokujin]
MapReduceに関してコンセプト・基本概念・注意点・アルゴリズムデザインといった入門的な内容を紹介。
- MapReduce
- Split
- Map & Serialize
- Combine
- Partition & Shuffle
- Sort
- Reduce
- MapReduceを扱う際の注意点
- Combiner Function が満たす2つの条件
- 可換(Commutative)
- 結合的(Assosiative)
- Combiner Function が満たす2つの条件
- MapReduce Design
- Local Aggregation
- Sorting
- Simple Statistics
- Sampling
- Continuous MapReduce
- Join
参考資料:
- 論文、White Paper
- MapReduce: Simpli ed Data Processing on Large Clusters
- 平成21年度産学連携ソフトウェア工学実践事業(高信頼クラウド実現用ソフトウェア開発 (分散制御処理技術等に係るデータセンターの高信頼化に向けた実証事業)事業成果報告書
- Distributed Aggregation for Data-Parallel Computing: Interfaces andImplementations
- A Comparison of Approaches for Large-Scale Data Mining Utilizing MapReduce in Large-Scale Data Mining
- Data Intensive Computing Solutions
- In-situ MapReduce for Log Processing
- Reining in the Outliers in Map-Reduce Clusters using Mantrix
- Wide-Scale Data Stream Management
- 書籍:
- サイト
2. 「HapyrusでHadoopによる機械学習を簡単に」(発表20分 + 議論20分)
講師 : [Twitter:@fujibee]
参考資料:
3. 「大規模データマイニングでのモデル探索手法:K-sample plot」(発表30分 + 議論30分)
講師 : [Twitter:@isseing333]
大規模データによるモデル作成を行うときに、分散処理+機械学習とは少し違ったアプローチを紹介します。統計的な性質を利用して、短時間で効率良くモデル探索を行うことのできる手法がKsPlotです。KsPlotによってストレスフリーなモデル探索ライフを!!
参考資料:
- 僕の考えた統計学部カリキュラム
- Rでのモデル作成
- 線形回帰
- SVM
- 予測性能評価
- R Square
- Explained Variance
- 予測誤差
- 1-R-square
- 1-Explained Variance
- 計算時間
- 線形回帰:0.01秒(1000 Sample) → 0.28秒(100万 Sample)
- SVM : 0.15秒(1000 Sample) → 24時間でも終了しない (100万 Sample)
- 解決策: Sampling
- Sampling と Cross-Validation
- K-sample Plot (KsPlot)
- 中心極限定理、検出力を利用。サンプルを増やし予測性能の評価を行う。
- 実行
- Library(KsPlot)
- KsamplePlot(Data1, yL)
- 結果
- 予測誤差の推定値、真の値を算出
- SVM
- Library(KsPlot)
- Ksamples <- c(seq(10,100,10), seq(100,1000,100), seq(1000, 2000, 100))
- KsamplePlot(Data1, yL, Ksample2,Method ="svm")
- サンプル数指定できる。
- 実行できる予測モデル
- 提案
- 集計、平均、グラフ化など粗解析は全データでやる
- アルゴリズムは KsPlotで見通しを付ける
- モデルを作る
- Samplingのときの注意
- 性質の異なる集団は分けて解析:男女、年代、地域
- 重要で稀なデータの存在を集計・グラフ化時に注意。1人で数百万課金しているなど。
- 変数が多い
- サンプリングと別の問題、変数選択。
- サンプリングデータで変数選択
4. 「Rで並列処理:foreachパッケージ解剖学」(発表30分 + 議論30分)
講師 : [Twitter:@tyatsuta]
参考資料:
- 基本構文
- library(foreach)
- m <- matrix(1:9, 3, 3)
- x <- foreach(j=1:3, .combine="c") %do% sum(m[,j])
- c: concatenate
- イテレータ
- irnorm(3, count=4)
- 並列化
- doMC/multicore
- doSMP/revolPC
- doSNOW/snow
- パフォーマンス上げるには
- 効果
- doMCで素直に書くのた一番早い
- 内部構造
■声・議論:
D. 「参加者の声・ディスカッション」 (60分)
進行 : id:hamadakoichi [Twitter:@hamadakoichi]
参加者全員での振返り結果(継続したい良かった点、改善点)です。
MindMap-第12回データマイニング+WEB@東京 継続したい点・改善点・次回AGENDA
推薦文献
- 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗
- 出版社/メーカー: 翔泳社
- 発売日: 2011/01/28
- メディア: 大型本
- 購入: 14人 クリック: 668回
- この商品を含むブログ (43件) を見る
- 作者: Satnam Alag,堀内孝彦,真鍋加奈子,真鍋和久
- 出版社/メーカー: ソフトバンククリエイティブ
- 発売日: 2009/03/27
- メディア: 大型本
- 購入: 13人 クリック: 295回
- この商品を含むブログ (64件) を見る
- 作者: Toby Segaran,當山仁健,鴨澤眞夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2008/07/25
- メディア: 大型本
- 購入: 91人 クリック: 2,220回
- この商品を含むブログ (277件) を見る
関連ツイート(Togetter)
「第12回 データマイニング+WEB 勉強会@東京−機械学習MapReduce・大規模R解析 祭り−」に関するツイートを Togetter にまとめました。みなさん、たくさんのツイートありがとうございました。("誰でも編集可能"に設定してあります)
第12回 データマイニング+WEB@東京 ( #TokyoWebmining #12)-機械学習MapReduce・大規模R解析 祭り- - Togetter
講師募集
データマイニング+WEB勉強会@東京 (#TokyoWebmining) を今後も、講師、参加者、双方にとってよりよい会としていきたいと思います。講師を募集していますので私の Twitter か Google Group へのメールへぜひご連絡下さい。
連絡先:
過去開催内容:
- 第11回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 11th) −Mahout・Graphical Model・学術 祭り−を開催しました - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −2nd Week−大規模分散 機械学習 祭り− - hamadakoichi blog
- 第10回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining 10th)を開催しました −1st Week−広告ネットワーク・グラフ解析・並列機械学習 祭り− - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −2nd Week−方法論・ソーシャル祭り− を開催しました - hamadakoichi blog
- 第9回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #9) −1st Week− 大規模解析・機械学習・クオンツ 祭り− を開催しました - hamadakoichi blog
- 第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) −大規模解析・ウェブ・クオンツ 祭り−を開催しました - hamadakoichi blog
- 第7回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #7) −機械学習・解析・セマンティックウェブ祭り−を開催しました - hamadakoichi blog
- 第6回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#6) −ソーシャル・広告・最適化祭り−を開催しました - hamadakoichi blog
- 第5回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#5) −WEB解析・最適化祭り−を開催しました - hamadakoichi blog
- 第4回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#4) −WEB祭り−を開催しました−「ソーシャルウェブ と レコメンデーション」 - hamadakoichi blog
- 第3回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催しました−「R言語による クラスター分析 -活用編-」 - hamadakoichi blog
- 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」- - hamadakoichi blog
- 第1回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#1) を開催しました - 「はじめてでもわかる 統計解析・データマイニング R言語入門」 - hamadakoichi blog