SlideShare a Scribd company logo
1 of 27
Download to read offline
Hadoop 黄色い象使いへの道
    ~Hadoop徹底入門より~

株式会社NTTデータ 基盤システム事業本部
   システム方式技術BU 課長代理
         下垣 徹
本日のアジェンダ

       Hadoop概要
       Hadoop適用事例
       「Hadoop徹底入門」の読み方
       黄色い象 (= Hadoop) 使いへの道
               Hadoop利用時のよくある質問




Copyright © 2010 NTT DATA CORPORATION   1
Hadoopの概要



Copyright © 2010 NTT DATA CORPORATION               2
その前に・・・ Googleの基盤技術
        Googleは独自の基盤技術を用いて、大規模データを対象としたサービスを展開
           Googleは、自ら 「クラウドコンピュータを持ってサービス展開している」 という

                                        Web検索     ログ解析      Gmail   Google Maps   ・・・


                                  プログラミング言語
                                                 Sawzall
                                   分散処理フレームワーク                        キー・バリュー型データストア
                                                                                        論文:
                                                MapReduce                  BigTable     The Google File
   論文:                                                                                  System (2003年)
   MapReduce:
   Simplified Data                  分散ファイルシステム
   Processing on
   Large Clusters                                Google File System (GFS)
   (2004年)


                                                    独自に建造したデータセンタ


                                                     グーグルプラットフォーム
Copyright © 2010 NTT DATA CORPORATION                                                                 3
Hadoop とは?

        オープンソースの大規模分散処理フレームワーク
                 Googleの基盤ソフトウェアのオープンソースのクローン
                 大きなデータを並列に読み、データのローカリティを活かしてデータ処理する
                 高いスケーラビリティにより、小さく始めて大きく活用できる
                 Bank of America、VISA、JP Morgan Chase & Co、GE (General Electric)、
                 AOL、CMCC(中国移動通信)、Baidu (百度)、国内テレコム事業者、
                 Yahoo! 、Facebook 、Twitter、eBay、楽天 なども活用
                 ログ解析やレコメンデーションエンジン、検索エンジンなどでの活用が主流
                 今後は、DWH/BI領域での活用が進む


        Yahoo! のHadoop環境がソート処理の世界記録を樹立
                 1TBのデータソートを62秒で実現 (2009年5月)

        大きく2つのコンポーネントで構成される
                 分散ファイルシステム: HDFS (Hadoop Distributed File System)
                 大規模分散処理フレームワーク: Hadoop MapReduce Framework

Copyright © 2010 NTT DATA CORPORATION                                               4
Hadoop – クラスタの全体像

       集中管理型の分散システム                                          Hadoopマスタサーバ
               分散処理ジョブやデータの管理は                    NameNode               JobTracker
               マスタサーバで実施
               スレーブサーバは、分散処理の実
               行やデータの実体を保存
               スレーブサーバのクラスタへの
               参加・離脱は自動的                                            L2/L3スイッチ
                   - 各ノードはマスターサーバに定期     Hadoopクライアント
                     的に通知する
                                                                    L2スイッチ

       HDFS
               マスター: NamaNode
               スレーブ: DataNode
       MapReduce
               マスター: JobTracker
               スレーブ: TaskTracker
                                        Hadoopスレーブサーバ (DataNode/TaskTracker)

Copyright © 2010 NTT DATA CORPORATION                                                 5
分散ファイルシステムHDFSとMapReduceフレームワーク

         低価格サーバの大量使用による故障の発生                            大規模分散処理向けフレームワーク
         が前提の設計                                          Googleが検索インデックス作成のため考案
                 データの多重化で可用性を担保する                        少なくとも5000台までスケールアウトしても性能向上す
                 従来とは運用利便性の考え方が異なる                       ることが知られている


                          Client               HDFS                    MapReduce
                                             NameNode
 ブロックに分割して
 ランダムに分散配置
                                                                           MAP


                     SW                 SW     SW

                                                                         SHUFFLE
     DataNodes




                                                                         REDUCE



                                              Rack
                     コピーをラックの内外に
                     多重作成して冗長化
Copyright © 2010 NTT DATA CORPORATION                                                  6
Hadoopの特徴

        個別設計する必要なく、分散処理を実現
          従来、プログラムごとに分散処理方式を設計する必要があった
                    - データの配置や分散、分散処理の分割、各ノード間の通信 etc…
                 Hadoopでは、MapReduceフレームワークによって、プログラム個別に
                 分散処理ロジックを用意することなく、分散処理を気楽に利用できる
        高いスケーラビリティ
          サーバ台数を増やすことで、保存するデータサイズ、計算処理能力、
          バッチ処理の I/O性能を柔軟に拡張できる
          特にI/O性能は数台規模でも効果あり (上限の実績は~4000台)
        コモディティサーバ利用を前提とした設計
          IAサーバ+Linuxなど容易に入手できるコモディティ品で構築できる
          一部のサーバが故障しても、サービスの可用性に影響を及ぼさない
        様々なデータに対応
          どのようなデータでも格納できる
          格納時ではなく利用時にデータを意味付ける

Copyright © 2010 NTT DATA CORPORATION                     7
Hadoopの適用事例



Copyright © 2010 NTT DATA CORPORATION                 8
Hadoopの適用領域

               特に向いている領域
                       数10ギガバイト~テラバイト~ペタバイト級のデータを扱うシステム
                       バッチ処理的なアプリケーション
                       リアルタイム性が求められる処理の前処理


               一般的な利用例
                       ログ解析             POSデータ解析、広告分析、トラヒック解析など
                       レコメンデーション        クリック・ストリーム分析、関係グラフ解析など
                       検索               転置インデックス作成、検索精度向上
                       データマイニング         取引情報の分析・監査、不整データの抽出など
                       機械学習             大量データのパターン分析、分類など
                       データ変換            動画、テキスト、音楽
                       高度なETL

               日本での利用事例も数多く報告されるようになってきた
                       2011/02/22 「Hadoop Conference Japan 2011」に注目!

Copyright © 2010 NTT DATA CORPORATION                                  9
Hadoopの適用事例

      米Yahoo!                           3年分のログの処理に26日→Hadoopで20分に短縮
                                        現在82ペタバイトのデータを処理、全体で計25,000台のクラスタを有する
      Facebook                          4TBのデータが毎日新規に生成される/135TBのデータを毎日処理
                                        Hadoopで処理したデータをOracle RACやMySQLに格納して利用しているものも
      楽天                                広告のインプレッションログ解析、レコメンデーション、ランキング集計などで使用
                                        Perlスクリプトによる処理からHadoopに移行 / 20台程度のクラスタ
      VISA                              過去2年間で730億ものトランザクション=36TBのデータが生成
                                        分析にこれまで1カ月かかっていたものが、Hadoopによって13分に
      China Mobile                      5億人のユーザのCDRデータを処理、5~8TB/日
                                        商用のDB製品、DWH製品を利用していたがHadoopに移行
                                        スケーラビリティの確保、ローコスト化・柔軟性の確保を実現
      国立国会図書館                           国立国会図書館・公立図書館・大学図書館・等の蔵書を横断的に検索するシステム
                                        異なるデータソースからの重複・関連したデータに対する書誌同定・グループ化をHadoop
                                        で実施し、検索インデックスを作成
      GE (Gereral                       Twitter・Facebook・ブログといったメディアからデータを蓄積し、顧客の感性分析を行う
      Electric)                         MySQLで42時間かかっていた処理をHadoopを用いることで48分で完了
      リクルート                             DWH(データウェアハウス)製品とHadoopを比較し、特性を評価
                                        顧客動向分析のためにログなどを収集、分析するHadoopクラスタを構築中
Copyright © 2010 NTT DATA CORPORATION                                                      10
「Hadoop徹底入門」



Copyright © 2010 NTT DATA CORPORATION              11
「Hadoop徹底入門」の読み方 (1/3)

       まずは第1章~第5章・第6章まで続けて読む                            全437ページ
         第1章 Hadoopってなんだろう?
         第2章 Hadoopの導入
         第3章 Hadoop分散ファイルシステム HDFS                       204 234
                                                         ページ   ページ
         第4章 Hadoop MapReduceフレームワーク
                   - 第3章・第4章→「前半は理論、後半は使い方・管理」の構成
               第5章 MapReduceプログラミング入門
                   - ワードカウントを例に、MRUnit・デバッグ技法まで解説
               第6章 SQL的インターフェイス Hive
                   - JavaでMapReduceを書きたくない/全く書けないなら5章スキップも
       残りの章は必要に応じて読みたいところから
         第10章 性能向上のためのチューニング
                   - SequenceFile、圧縮、メモリ/JVM/OSチューニング
Copyright © 2010 NTT DATA CORPORATION                                12
「Hadoop徹底入門」の読み方(2/3)

       Hadoopにおける高い信頼性および運用性の実現を補助する内容を記載
          第7章:環境構築の効率化
                   - Kickstart、Puppet を用いた環境構築の自動化
               第8章:運用監視とシステムの可視化
                   - Ganglia を用い、Hadoop に適した監視を実現
               第9章:可用性の向上
                   - Heartbeat、DRBD を用いてマスターサーバの冗長化を実現




Copyright © 2010 NTT DATA CORPORATION                    13
「Hadoop徹底入門」 の読み方(3/3)

       Hadoopの利用価値をさらに高める各種ツール群を紹介
          Hive(6章):SQL的な言語でMapReduceを実行
          Pig(11.2章):データの流れ記述する独自言語でMapReduceを実行
          Mahout:Hadoop上で機械学習を容易に実行するためのライブラリ群
          HBase(11.1章):カラム指向型Key-Valueストアデータの追記や少量
          データの扱いを容易に実現
          Thrift(11.3章):HDFSに対する操作を各種言語で実現

               他に:
                   - Oozie:Hadoop上のジョブの管理を実現するワークフローエンジン
                   - Sqoop:DBMSからのデータ移行連携
                   - HUE:Hadoopに対する操作をGUIにて提供するデスクトップツール


Copyright © 2010 NTT DATA CORPORATION                      14
Hive の利用

       Hive で SQL的インターフェースが利用可能に!
          Java によるコーディングは苦手でも、SQL なら分かるという人は多い
          Hadoop利用者の裾野拡大に大きく寄与

       とはいえ、あくまでも SQL 「的」 なだけ → HiveQL ≠ SQL標準準拠
         UPDATE 文が無い
         DELETE 文が無い
         INSERT INTO 文(追記)ではなく、INSERT OVERWRITE 文(上書き)
         細かな構文の違いはマニュアルを見ながら慣れるしかない

       次ページ以降で、HiveQL の初心者がとまどいがちな
       ポイントを解説
                   http://wiki.apache.org/hadoop/Hive
Copyright © 2010 NTT DATA CORPORATION                    15
初心者がとまどいがちな HiveQL の例(1/3)

       データロード/アンロード                                          「元データが消えた?」
                                                             なんて思わないように。
         Hive外のデータの取り込み = LOAD文
                - とくにHDFS内のデータからの LOAD は “mv” コマンドのイメージ!
               Hive内のデータの取り出し = INSERT OVERWRITE … SELECT … 文
                   - INSERT は1レコードを追加するためのものではない


                          LOAD DATA…             INSERT OVERWRITE…SELECT…

                                        Hive テーブル


                                          HDFS



Copyright © 2010 NTT DATA CORPORATION                                       16
初心者がとまどいがちな HiveQL の例(2/3)

         日付時刻データの扱い → Hiveには日付時刻型がない
         1. Hive へは STRING 型で格納 ‘yyyy-MM-dd HH:mm:ss’

                 日付時刻計算は:
                   A)引数が STRING の組み込みの関数を利用する:
                     → 日付差分datediff() など
                   B)unix_timestamp(‘yyyy-MM-dd HH:mm:ss’) で UNIX タイムスタ
                     ンプに変換してから処理



          2. もしくは初めから BIGINT 型に UNIX タイムスタンプ値を格納


Copyright © 2010 NTT DATA CORPORATION                                 17
初心者がとまどいがちな HiveQL の例(3/3)

       データのソート
         ORDER BY 句 : 全出力結果のソート
         SORT BY 句 : Reducer ごとのソート

       FROM句でのテーブル名の羅列不可 → JOIN 句を利用
          (×) SELECT t1.c1, t2.c2 FROM t1, t2 WHERE t1.c1 = t2.c1;
          (○) SELECT t1.c1, t2.c2 FROM t1 JOIN t2 ON t1.c1 = t2.c1;

       IN/EXISTS 句がない → LEFT SEMI JOIN で代用
          (×)SELECT a.key, a.value FROM a
                 WHERE a.key IN (SELECT b.key FROM B);
          (○) SELECT a.key, a.val FROM a
                 LEFT SEMI JOIN b on (a.key = b.key);
Copyright © 2010 NTT DATA CORPORATION                                 18
                                                                       18
黄色い象使いへの道



Copyright © 2010 NTT DATA CORPORATION         19
黄色い象使いになるために ~ よくある質問 ~

       Hadoop 初心者の方からよく質問を受ける内容をまとめてみました

       1. RDBMS的な機能は無いんですか?
       2. Hadoopへのマイグレーションってどう?
       3. どの「Hadoop」を使えばよい?


                                              ?



Copyright © 2010 NTT DATA CORPORATION             20
1. RDBMS的な機能は無いんですか?

       そもそも Hadoop は RDBMS でありません!
         「トランザクションは概念は無いんですか?」
         「1レコードの更新/削除をする機能は無いんですか?」
         「B-Tree インデックスが無いんですか?」
                …このような機能はHadoopにはありません!
               RDBMSの世界で「常識」だと思われるものを捨てて、
               大容量データを効率よく処理するために特化した作りだと認識すべき


   Hadoopは「銀の弾丸」ではない!→ 「適材適所」の観点で
  例)大量データの前処理をHadoopで+結果をRDBMSに格納し検索しやすく

                                        Solr          NoSQL
                                               代替手段
Copyright © 2010 NTT DATA CORPORATION                         21
2. Hadoopへのマイグレーションってどう?

       商用RDBMS/DWHからのマイグレーションはやれなくはないが、
       それなりに工数がかかる、ことが多い
               根本的に、工数がかかるのは Hadoop に限った話ではない
       NTTデータではマイグレーションの障壁を下げるための取り組みを実施

       Hadoopの利用を「マイグレーションによるコスト削減」だけを目的にされると
       辛い、ことが多い
        Hadoopの利用目的に「何かの壁をぶち破るために」があってしかるべき
               「何か」 = 処理時間、データ量、etc.

       マイグレーション前と同じ機能/品質/SLAを求められると辛い、ことが多い
               商用RDBMS/DWH と Hadoop の機能差異
               RDBMSでの処理をそのまま置き換えても高速にならない
               → Hadoop に適する形=「大量データの一括処理」へのリファクタリングが必要
Copyright © 2010 NTT DATA CORPORATION                     22
Hadoopに適した処理への書き換え

         RDBMSで実行中のバッチ処理をHadoopに移植する場合、Hadoopでの性能を引き出す
         ようなチューニングが必要
         チューニングの実施例 (RDBMS → Hadoop + Hive)
          1. 既存のRDBMSでの処理
             - 索引検索によって少量の件数を抽出するクエリが複数からなるバッチ処理

          2. チューニングなしで処理をそのまま Hive に移植すると
              - 基本的には1クエリ=1MapReduceジョブ に変換される
              - MapReduceジョブ起動のオーバーヘッドが大きく、移植による性能向上が見られ
                ず:1ジョブあたりのオーバーヘッド=約20秒(本検証環境において)

          3. チューニング後、既存のRDBMSの処理で2.9時間かかっていた処理を、Hiveでは0.8
             時間で実現
              - 並列分散処理を意識し、 1回のMapReduceジョブで済むように複数の条件を一
                括で処理することで性能向上

         MapReduceジョブ数を極力減らすようにチューニングするのが得策!
            少量データを繰り返し処理するより、一括して処理したほうが Hadoop に適する
Copyright © 2010 NTT DATA CORPORATION                   23
3. どの「Hadoop」を使えばよい?

       Hadoopではどのバージョン/パッケージを使うのかはやや悩ましい問題
       コミュニティから提供中のコア部分の最新版は 0.21 系
               2010/08/23 v0.21.0 リリース
       しかしHadoop周辺プロダクトの多くは0.21系での動作を未サポート
               Hive, Pig, HBase など、主要なプロダクトは 0.20 系でのみ動作可能

                                                安定性重視
      最新機能をできる限り使いたい
                                            周辺プロダクトとの組合せ保証



                  コミュニティ版Hadoop          Cloudera’s Distribution for Hadoop
                     v0.21系                       (CDH) v0.20系

           CDH自体は無償だが、必要に応じてサブスクリプション・サポート(有償)を利用することも可能
Copyright © 2010 NTT DATA CORPORATION                                     24
まとめ


               Hadoopの概要について説明しました。
               Hadoopの適用事例を紹介しました。

               「Hadoop徹底入門」の読み方がわかりました。
               これでみなさんも「黄色い象使い」になれました。


                                        ♪


Copyright © 2010 NTT DATA CORPORATION       25
Copyright © 2010 NTT DATA CORPORATION   26

More Related Content

What's hot

Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)NTT DATA OSS Professional Services
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...MapR Technologies Japan
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Cloudera Japan
 
世界一簡単なHadoopの話
世界一簡単なHadoopの話世界一簡単なHadoopの話
世界一簡単なHadoopの話Koichi Shimazaki
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いRyuji Tamagawa
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントNTT DATA OSS Professional Services
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)オラクルエンジニア通信
 

What's hot (19)

Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
Hadoop 基礎
Hadoop 基礎Hadoop 基礎
Hadoop 基礎
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
 
世界一簡単なHadoopの話
世界一簡単なHadoopの話世界一簡単なHadoopの話
世界一簡単なHadoopの話
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
 

Viewers also liked

Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)Akira Shimosako
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...NTT DATA OSS Professional Services
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
分散KVSのデータモデリング
分散KVSのデータモデリング分散KVSのデータモデリング
分散KVSのデータモデリングTatsunori Matoba
 
Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013Cloudera Japan
 
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編ThinkIT_impress
 
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料Monta Yashi
 
Asakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopAsakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopTakashi Kambayashi
 
八子クラウド_IDCFrontier_20161217
八子クラウド_IDCFrontier_20161217八子クラウド_IDCFrontier_20161217
八子クラウド_IDCFrontier_20161217IDC Frontier
 
ソフトバンク通信3社向けHadoop研修資料
ソフトバンク通信3社向けHadoop研修資料ソフトバンク通信3社向けHadoop研修資料
ソフトバンク通信3社向けHadoop研修資料Preferred Networks
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)Naoki (Neo) SATO
 
Windows Server 2016でコンテナを動かしてみた
Windows Server 2016でコンテナを動かしてみたWindows Server 2016でコンテナを動かしてみた
Windows Server 2016でコンテナを動かしてみたTakashi Kanai
 

Viewers also liked (16)

Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
 
オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
分散KVSのデータモデリング
分散KVSのデータモデリング分散KVSのデータモデリング
分散KVSのデータモデリング
 
Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013Hadoopを40分で理解する #cwt2013
Hadoopを40分で理解する #cwt2013
 
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
 
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
お見合いで趣味を聞かれたときに 「IoTとビッグデータを少々」と答えたいSEが読む資料
 
Asakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for HadoopAsakusa Enterprise Batch Processing Framework for Hadoop
Asakusa Enterprise Batch Processing Framework for Hadoop
 
八子クラウド_IDCFrontier_20161217
八子クラウド_IDCFrontier_20161217八子クラウド_IDCFrontier_20161217
八子クラウド_IDCFrontier_20161217
 
ソフトバンク通信3社向けHadoop研修資料
ソフトバンク通信3社向けHadoop研修資料ソフトバンク通信3社向けHadoop研修資料
ソフトバンク通信3社向けHadoop研修資料
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
 
20161125 Asakusa Framework Day オラクル講演資料
20161125 Asakusa Framework Day オラクル講演資料20161125 Asakusa Framework Day オラクル講演資料
20161125 Asakusa Framework Day オラクル講演資料
 
Hadoop Conference Japan 2009 - NTT Data
Hadoop Conference Japan 2009 - NTT DataHadoop Conference Japan 2009 - NTT Data
Hadoop Conference Japan 2009 - NTT Data
 
Windows Server 2016でコンテナを動かしてみた
Windows Server 2016でコンテナを動かしてみたWindows Server 2016でコンテナを動かしてみた
Windows Server 2016でコンテナを動かしてみた
 

Similar to 【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~

ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoopInsight Technology, Inc.
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介bigt23
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase ReportSeiichiro Ishida
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...Insight Technology, Inc.
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...Insight Technology, Inc.
 
データセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoopデータセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoopAtsushi Nakada
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...NTT DATA Technology & Innovation
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 
iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力nisobe58
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 

Similar to 【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~ (20)

ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 
Osc2012 spring HBase Report
Osc2012 spring HBase ReportOsc2012 spring HBase Report
Osc2012 spring HBase Report
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
S01 t3 data_engineer
S01 t3 data_engineerS01 t3 data_engineer
S01 t3 data_engineer
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
 
データセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoopデータセンター視点で考えてみるHadoop
データセンター視点で考えてみるHadoop
 
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力iOS/Androidにも対応した SQL Anywhere 12の魅力
iOS/Androidにも対応した SQL Anywhere 12の魅力
 
OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB HadoopOSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
 

More from Developers Summit

【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」
【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」
【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」Developers Summit
 
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~Developers Summit
 
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~Developers Summit
 
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみるDevelopers Summit
 
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。Developers Summit
 
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦Developers Summit
 
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツールDevelopers Summit
 
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツールDevelopers Summit
 
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)Developers Summit
 
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~Developers Summit
 
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えしますDevelopers Summit
 
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流Developers Summit
 
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~Developers Summit
 
【15-A-1】ドラゴンクエストXを支える失敗事例
【15-A-1】ドラゴンクエストXを支える失敗事例【15-A-1】ドラゴンクエストXを支える失敗事例
【15-A-1】ドラゴンクエストXを支える失敗事例Developers Summit
 
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~Developers Summit
 
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜Developers Summit
 
【B-5】モダンな開発を実現するツールチェーンのご紹介
【B-5】モダンな開発を実現するツールチェーンのご紹介【B-5】モダンな開発を実現するツールチェーンのご紹介
【B-5】モダンな開発を実現するツールチェーンのご紹介Developers Summit
 
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習Developers Summit
 
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道Developers Summit
 
【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略Developers Summit
 

More from Developers Summit (20)

【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」
【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」
【18-A-2】ゲーミフィケーション・エバンジェリストが見る「あなたの技術力が“ワクワクするサービス”に変わる未来」
 
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・小林様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
 
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
【C-2・醍醐様】AIとAPIがITインフラにもたらす変化 ~プログラマブルなクラウド型Wi-Fi~
 
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる
【B-4】オープンソース開発で、フリー静的解析ツールを使ってみる
 
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。
【B-6】Androidスマホの生体認証の脆弱性、調べてみたらよくある話だった。
 
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦
【13-B-6】Hondaの生産技術屋さんがソフトウェア開発でアジャイルを初導入し組織変革に挑戦
 
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
 
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
【15-E-7】セキュアな環境でDevOpsを実現する厳選ツール
 
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)
【14-E-3】セキュリティ・テストの自動化によるDevSecOpsの実現 (デモ有)
 
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~
【15-D-2】デンソーのMaaS開発~アジャイル開発で顧客との協調・チームビルディング・実装概要~
 
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします
【14-C-8】みんなの暮らしを支えるAmazon S3の裏側、お伝えします
 
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流
【14-C-7】コンピュータビジョンを支える深層学習技術の新潮流
 
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~
【15-B-7】無意味なアラートからの脱却 ~ Datadogを使ってモダンなモニタリングを始めよう ~
 
【15-A-1】ドラゴンクエストXを支える失敗事例
【15-A-1】ドラゴンクエストXを支える失敗事例【15-A-1】ドラゴンクエストXを支える失敗事例
【15-A-1】ドラゴンクエストXを支える失敗事例
 
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~
【15-A-5】ゲーミフィケーションエバンジェリストが説く、アプリ開発で見落としがちな「おもてなし」とは~面白さを伝える × 面白く魅せる~
 
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜
【B-2】福岡発Node.jsで支える大規模システム!〜「誰ガ為のアルケミスト」と歩んだ三年〜
 
【B-5】モダンな開発を実現するツールチェーンのご紹介
【B-5】モダンな開発を実現するツールチェーンのご紹介【B-5】モダンな開発を実現するツールチェーンのご紹介
【B-5】モダンな開発を実現するツールチェーンのご紹介
 
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習
【C-2】メモリも、僕のキャパシティも溢れっぱなし。。2年目エンジニアが実現した機械学習
 
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道
【A-2】とあるマーケティング部隊とデータエンジニアのデータドリブンへの道
 
【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略【B-2】AI時代におけるエンジニアの生存戦略
【B-2】AI時代におけるエンジニアの生存戦略
 

【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~

  • 1. Hadoop 黄色い象使いへの道 ~Hadoop徹底入門より~ 株式会社NTTデータ 基盤システム事業本部 システム方式技術BU 課長代理 下垣 徹
  • 2. 本日のアジェンダ Hadoop概要 Hadoop適用事例 「Hadoop徹底入門」の読み方 黄色い象 (= Hadoop) 使いへの道 Hadoop利用時のよくある質問 Copyright © 2010 NTT DATA CORPORATION 1
  • 3. Hadoopの概要 Copyright © 2010 NTT DATA CORPORATION 2
  • 4. その前に・・・ Googleの基盤技術 Googleは独自の基盤技術を用いて、大規模データを対象としたサービスを展開 Googleは、自ら 「クラウドコンピュータを持ってサービス展開している」 という Web検索 ログ解析 Gmail Google Maps ・・・ プログラミング言語 Sawzall 分散処理フレームワーク キー・バリュー型データストア 論文: MapReduce BigTable The Google File 論文: System (2003年) MapReduce: Simplified Data 分散ファイルシステム Processing on Large Clusters Google File System (GFS) (2004年) 独自に建造したデータセンタ グーグルプラットフォーム Copyright © 2010 NTT DATA CORPORATION 3
  • 5. Hadoop とは? オープンソースの大規模分散処理フレームワーク Googleの基盤ソフトウェアのオープンソースのクローン 大きなデータを並列に読み、データのローカリティを活かしてデータ処理する 高いスケーラビリティにより、小さく始めて大きく活用できる Bank of America、VISA、JP Morgan Chase & Co、GE (General Electric)、 AOL、CMCC(中国移動通信)、Baidu (百度)、国内テレコム事業者、 Yahoo! 、Facebook 、Twitter、eBay、楽天 なども活用 ログ解析やレコメンデーションエンジン、検索エンジンなどでの活用が主流 今後は、DWH/BI領域での活用が進む Yahoo! のHadoop環境がソート処理の世界記録を樹立 1TBのデータソートを62秒で実現 (2009年5月) 大きく2つのコンポーネントで構成される 分散ファイルシステム: HDFS (Hadoop Distributed File System) 大規模分散処理フレームワーク: Hadoop MapReduce Framework Copyright © 2010 NTT DATA CORPORATION 4
  • 6. Hadoop – クラスタの全体像 集中管理型の分散システム Hadoopマスタサーバ 分散処理ジョブやデータの管理は NameNode JobTracker マスタサーバで実施 スレーブサーバは、分散処理の実 行やデータの実体を保存 スレーブサーバのクラスタへの 参加・離脱は自動的 L2/L3スイッチ - 各ノードはマスターサーバに定期 Hadoopクライアント 的に通知する L2スイッチ HDFS マスター: NamaNode スレーブ: DataNode MapReduce マスター: JobTracker スレーブ: TaskTracker Hadoopスレーブサーバ (DataNode/TaskTracker) Copyright © 2010 NTT DATA CORPORATION 5
  • 7. 分散ファイルシステムHDFSとMapReduceフレームワーク 低価格サーバの大量使用による故障の発生 大規模分散処理向けフレームワーク が前提の設計 Googleが検索インデックス作成のため考案 データの多重化で可用性を担保する 少なくとも5000台までスケールアウトしても性能向上す 従来とは運用利便性の考え方が異なる ることが知られている Client HDFS MapReduce NameNode ブロックに分割して ランダムに分散配置 MAP SW SW SW SHUFFLE DataNodes REDUCE Rack コピーをラックの内外に 多重作成して冗長化 Copyright © 2010 NTT DATA CORPORATION 6
  • 8. Hadoopの特徴 個別設計する必要なく、分散処理を実現 従来、プログラムごとに分散処理方式を設計する必要があった - データの配置や分散、分散処理の分割、各ノード間の通信 etc… Hadoopでは、MapReduceフレームワークによって、プログラム個別に 分散処理ロジックを用意することなく、分散処理を気楽に利用できる 高いスケーラビリティ サーバ台数を増やすことで、保存するデータサイズ、計算処理能力、 バッチ処理の I/O性能を柔軟に拡張できる 特にI/O性能は数台規模でも効果あり (上限の実績は~4000台) コモディティサーバ利用を前提とした設計 IAサーバ+Linuxなど容易に入手できるコモディティ品で構築できる 一部のサーバが故障しても、サービスの可用性に影響を及ぼさない 様々なデータに対応 どのようなデータでも格納できる 格納時ではなく利用時にデータを意味付ける Copyright © 2010 NTT DATA CORPORATION 7
  • 10. Hadoopの適用領域 特に向いている領域 数10ギガバイト~テラバイト~ペタバイト級のデータを扱うシステム バッチ処理的なアプリケーション リアルタイム性が求められる処理の前処理 一般的な利用例 ログ解析 POSデータ解析、広告分析、トラヒック解析など レコメンデーション クリック・ストリーム分析、関係グラフ解析など 検索 転置インデックス作成、検索精度向上 データマイニング 取引情報の分析・監査、不整データの抽出など 機械学習 大量データのパターン分析、分類など データ変換 動画、テキスト、音楽 高度なETL 日本での利用事例も数多く報告されるようになってきた 2011/02/22 「Hadoop Conference Japan 2011」に注目! Copyright © 2010 NTT DATA CORPORATION 9
  • 11. Hadoopの適用事例 米Yahoo! 3年分のログの処理に26日→Hadoopで20分に短縮 現在82ペタバイトのデータを処理、全体で計25,000台のクラスタを有する Facebook 4TBのデータが毎日新規に生成される/135TBのデータを毎日処理 Hadoopで処理したデータをOracle RACやMySQLに格納して利用しているものも 楽天 広告のインプレッションログ解析、レコメンデーション、ランキング集計などで使用 Perlスクリプトによる処理からHadoopに移行 / 20台程度のクラスタ VISA 過去2年間で730億ものトランザクション=36TBのデータが生成 分析にこれまで1カ月かかっていたものが、Hadoopによって13分に China Mobile 5億人のユーザのCDRデータを処理、5~8TB/日 商用のDB製品、DWH製品を利用していたがHadoopに移行 スケーラビリティの確保、ローコスト化・柔軟性の確保を実現 国立国会図書館 国立国会図書館・公立図書館・大学図書館・等の蔵書を横断的に検索するシステム 異なるデータソースからの重複・関連したデータに対する書誌同定・グループ化をHadoop で実施し、検索インデックスを作成 GE (Gereral Twitter・Facebook・ブログといったメディアからデータを蓄積し、顧客の感性分析を行う Electric) MySQLで42時間かかっていた処理をHadoopを用いることで48分で完了 リクルート DWH(データウェアハウス)製品とHadoopを比較し、特性を評価 顧客動向分析のためにログなどを収集、分析するHadoopクラスタを構築中 Copyright © 2010 NTT DATA CORPORATION 10
  • 13. 「Hadoop徹底入門」の読み方 (1/3) まずは第1章~第5章・第6章まで続けて読む 全437ページ 第1章 Hadoopってなんだろう? 第2章 Hadoopの導入 第3章 Hadoop分散ファイルシステム HDFS 204 234 ページ ページ 第4章 Hadoop MapReduceフレームワーク - 第3章・第4章→「前半は理論、後半は使い方・管理」の構成 第5章 MapReduceプログラミング入門 - ワードカウントを例に、MRUnit・デバッグ技法まで解説 第6章 SQL的インターフェイス Hive - JavaでMapReduceを書きたくない/全く書けないなら5章スキップも 残りの章は必要に応じて読みたいところから 第10章 性能向上のためのチューニング - SequenceFile、圧縮、メモリ/JVM/OSチューニング Copyright © 2010 NTT DATA CORPORATION 12
  • 14. 「Hadoop徹底入門」の読み方(2/3) Hadoopにおける高い信頼性および運用性の実現を補助する内容を記載 第7章:環境構築の効率化 - Kickstart、Puppet を用いた環境構築の自動化 第8章:運用監視とシステムの可視化 - Ganglia を用い、Hadoop に適した監視を実現 第9章:可用性の向上 - Heartbeat、DRBD を用いてマスターサーバの冗長化を実現 Copyright © 2010 NTT DATA CORPORATION 13
  • 15. 「Hadoop徹底入門」 の読み方(3/3) Hadoopの利用価値をさらに高める各種ツール群を紹介 Hive(6章):SQL的な言語でMapReduceを実行 Pig(11.2章):データの流れ記述する独自言語でMapReduceを実行 Mahout:Hadoop上で機械学習を容易に実行するためのライブラリ群 HBase(11.1章):カラム指向型Key-Valueストアデータの追記や少量 データの扱いを容易に実現 Thrift(11.3章):HDFSに対する操作を各種言語で実現 他に: - Oozie:Hadoop上のジョブの管理を実現するワークフローエンジン - Sqoop:DBMSからのデータ移行連携 - HUE:Hadoopに対する操作をGUIにて提供するデスクトップツール Copyright © 2010 NTT DATA CORPORATION 14
  • 16. Hive の利用 Hive で SQL的インターフェースが利用可能に! Java によるコーディングは苦手でも、SQL なら分かるという人は多い Hadoop利用者の裾野拡大に大きく寄与 とはいえ、あくまでも SQL 「的」 なだけ → HiveQL ≠ SQL標準準拠 UPDATE 文が無い DELETE 文が無い INSERT INTO 文(追記)ではなく、INSERT OVERWRITE 文(上書き) 細かな構文の違いはマニュアルを見ながら慣れるしかない 次ページ以降で、HiveQL の初心者がとまどいがちな ポイントを解説 http://wiki.apache.org/hadoop/Hive Copyright © 2010 NTT DATA CORPORATION 15
  • 17. 初心者がとまどいがちな HiveQL の例(1/3) データロード/アンロード 「元データが消えた?」 なんて思わないように。 Hive外のデータの取り込み = LOAD文 - とくにHDFS内のデータからの LOAD は “mv” コマンドのイメージ! Hive内のデータの取り出し = INSERT OVERWRITE … SELECT … 文 - INSERT は1レコードを追加するためのものではない LOAD DATA… INSERT OVERWRITE…SELECT… Hive テーブル HDFS Copyright © 2010 NTT DATA CORPORATION 16
  • 18. 初心者がとまどいがちな HiveQL の例(2/3) 日付時刻データの扱い → Hiveには日付時刻型がない 1. Hive へは STRING 型で格納 ‘yyyy-MM-dd HH:mm:ss’ 日付時刻計算は: A)引数が STRING の組み込みの関数を利用する: → 日付差分datediff() など B)unix_timestamp(‘yyyy-MM-dd HH:mm:ss’) で UNIX タイムスタ ンプに変換してから処理 2. もしくは初めから BIGINT 型に UNIX タイムスタンプ値を格納 Copyright © 2010 NTT DATA CORPORATION 17
  • 19. 初心者がとまどいがちな HiveQL の例(3/3) データのソート ORDER BY 句 : 全出力結果のソート SORT BY 句 : Reducer ごとのソート FROM句でのテーブル名の羅列不可 → JOIN 句を利用 (×) SELECT t1.c1, t2.c2 FROM t1, t2 WHERE t1.c1 = t2.c1; (○) SELECT t1.c1, t2.c2 FROM t1 JOIN t2 ON t1.c1 = t2.c1; IN/EXISTS 句がない → LEFT SEMI JOIN で代用 (×)SELECT a.key, a.value FROM a WHERE a.key IN (SELECT b.key FROM B); (○) SELECT a.key, a.val FROM a LEFT SEMI JOIN b on (a.key = b.key); Copyright © 2010 NTT DATA CORPORATION 18 18
  • 21. 黄色い象使いになるために ~ よくある質問 ~ Hadoop 初心者の方からよく質問を受ける内容をまとめてみました 1. RDBMS的な機能は無いんですか? 2. Hadoopへのマイグレーションってどう? 3. どの「Hadoop」を使えばよい? ? Copyright © 2010 NTT DATA CORPORATION 20
  • 22. 1. RDBMS的な機能は無いんですか? そもそも Hadoop は RDBMS でありません! 「トランザクションは概念は無いんですか?」 「1レコードの更新/削除をする機能は無いんですか?」 「B-Tree インデックスが無いんですか?」 …このような機能はHadoopにはありません! RDBMSの世界で「常識」だと思われるものを捨てて、 大容量データを効率よく処理するために特化した作りだと認識すべき Hadoopは「銀の弾丸」ではない!→ 「適材適所」の観点で 例)大量データの前処理をHadoopで+結果をRDBMSに格納し検索しやすく Solr NoSQL 代替手段 Copyright © 2010 NTT DATA CORPORATION 21
  • 23. 2. Hadoopへのマイグレーションってどう? 商用RDBMS/DWHからのマイグレーションはやれなくはないが、 それなりに工数がかかる、ことが多い 根本的に、工数がかかるのは Hadoop に限った話ではない NTTデータではマイグレーションの障壁を下げるための取り組みを実施 Hadoopの利用を「マイグレーションによるコスト削減」だけを目的にされると 辛い、ことが多い Hadoopの利用目的に「何かの壁をぶち破るために」があってしかるべき 「何か」 = 処理時間、データ量、etc. マイグレーション前と同じ機能/品質/SLAを求められると辛い、ことが多い 商用RDBMS/DWH と Hadoop の機能差異 RDBMSでの処理をそのまま置き換えても高速にならない → Hadoop に適する形=「大量データの一括処理」へのリファクタリングが必要 Copyright © 2010 NTT DATA CORPORATION 22
  • 24. Hadoopに適した処理への書き換え RDBMSで実行中のバッチ処理をHadoopに移植する場合、Hadoopでの性能を引き出す ようなチューニングが必要 チューニングの実施例 (RDBMS → Hadoop + Hive) 1. 既存のRDBMSでの処理 - 索引検索によって少量の件数を抽出するクエリが複数からなるバッチ処理 2. チューニングなしで処理をそのまま Hive に移植すると - 基本的には1クエリ=1MapReduceジョブ に変換される - MapReduceジョブ起動のオーバーヘッドが大きく、移植による性能向上が見られ ず:1ジョブあたりのオーバーヘッド=約20秒(本検証環境において) 3. チューニング後、既存のRDBMSの処理で2.9時間かかっていた処理を、Hiveでは0.8 時間で実現 - 並列分散処理を意識し、 1回のMapReduceジョブで済むように複数の条件を一 括で処理することで性能向上 MapReduceジョブ数を極力減らすようにチューニングするのが得策! 少量データを繰り返し処理するより、一括して処理したほうが Hadoop に適する Copyright © 2010 NTT DATA CORPORATION 23
  • 25. 3. どの「Hadoop」を使えばよい? Hadoopではどのバージョン/パッケージを使うのかはやや悩ましい問題 コミュニティから提供中のコア部分の最新版は 0.21 系 2010/08/23 v0.21.0 リリース しかしHadoop周辺プロダクトの多くは0.21系での動作を未サポート Hive, Pig, HBase など、主要なプロダクトは 0.20 系でのみ動作可能 安定性重視 最新機能をできる限り使いたい 周辺プロダクトとの組合せ保証 コミュニティ版Hadoop Cloudera’s Distribution for Hadoop v0.21系 (CDH) v0.20系 CDH自体は無償だが、必要に応じてサブスクリプション・サポート(有償)を利用することも可能 Copyright © 2010 NTT DATA CORPORATION 24
  • 26. まとめ Hadoopの概要について説明しました。 Hadoopの適用事例を紹介しました。 「Hadoop徹底入門」の読み方がわかりました。 これでみなさんも「黄色い象使い」になれました。 ♪ Copyright © 2010 NTT DATA CORPORATION 25
  • 27. Copyright © 2010 NTT DATA CORPORATION 26