#garagekidztweetz

id:garage-kid@76whizkidz のライフログ・ブログ!

CDH ってどうなの?を知るために「Hadoopエンタープライズソリューションセミナー」に行ってきた

スポンサーリンク

Cloudera’sDistribution including Apache Hadoop

Cloudera’sDistribution including Apache HadoopThe most popular way to adopt Apache Hadoop in the enterprise. Hear from Doug Cutting on Cloudera’s Distribution including Apache Hadoop
An open system…
…simplified for use in trial or production
…proven at scale in the enterprise
…designed to work with your preexisting investments


今日は、 CDH (上述)に関する理解を深めるため、下記のセミナーに行ってきました。

Hadoopエンタープライズソリューションセミナー 〜 Big Dataを経営の力に変える鍵を探る 〜:NTTデータ

Hadoopエンタープライズソリューションセミナー〜 Big Dataを経営の力に変える鍵を探る 〜「Big Data」「Big Math」というキーワードに象徴されるように、増え続ける大量のデータをHadoopで効率的に処理したり、ビジネス上の価値がある有意義な情報を見い出すことに注目が集まっています。
NTTデータは、2008年からHadoopへの取り組みを開始しており、既に数百台〜数千台のシステムを構築・運用した事例を有しています。また、2010年には米Cloudera社との協業も発表し、Hadoopサポートサービスも本格的に開始しています。
本セミナーでは、NTTデータやClouderaが培ったノウハウや事例をもとに企業システムにおけるHadoopの活用シーンや事例についてご紹介します。


まず、どんな様子だったのか?を写真で紹介しましょう。


場所は、秋葉原のダイビル(写真左)、1F に入ると案内(写真右)がありました。

机も人数分ある広めのカンファレンスルーム(写真左)で、セルフサービスのコーヒー(写真右)がでました。

午前中の Cloudera の CEO の Mike Olson さんの発表のために同時通訳用のレシーバーが配られました。
※個人的には、これはいりませんでした。Mike Olson さんはゆっくり分かりやすい英語で話してくれていたので。むしろ、同時通訳を大音量で聞いている人がいたためうるさく迷惑でした。日本でやってるからといってそろそろこういうのを配るのをやめてもよいのではないでしょうか。

CDH の有償サポートの紹介という色合いが強かったためか、SIer の方(?)が多かったようです。スーツ姿の人が目立つセミナーでした。


次に、セミナーを受けての、個人的な CDH の印象をまとめておきましょう!

私は、
CDH を使用することに*1より前向きな考えになりました。(ただし、サポートを受けるかについては検討が必要)
以下にその理由を書いておこうと思います。

  • 私が CDH に(より)前向きになった理由。
    • 活動が活発であること。
      • Cloudera では Hadoop の Committer を数多く抱えています。そのため、 性能および品質向上のためのパッチを現在、最も多く提供している実績があります。その Cloudera が提供するディストリビューションということで CDH には信頼性があると私は思っています。
    • 導入の壁が低いこと。
      • ダウンロード、導入は無料。
      • Hadoop 周りで動作する Hive, Pig, HBase といった各種プロダクトは動作確認済みのものがディストリビューション内に同梱されている点
        自社で Hadoop とその周りの動向を追いかけ、テスト、導入の作業を繰り返し行っていくのは、かなり大きなコストです。この作業から解放されるメリットは大変大きいと思われます。
  • 私が CDH のサポートをしてもらうには検討が必要と思う理由。
    • 金額の問題。
      今日の説明によると、サポートは1年単位契約で、\250,000/node (最低 5node から)ということでした。つまり、最低 \1,250,000/year の費用がかかるということになります。セミナー中で、 Cloudera がサポートしている企業の平均(2009年時点)といっていた 210 台の node があるなら \52,500,000/year となります。これを安いとみるか高いとみるかで考えが変わってきそうです。
    • NTTデータがClouderaとの間に入る問題(問題というほどのこともないかもしれないですが)。
      今日、受けた説明では、 CDH のサポートを受ける場合、日本では NTTデータが一時受けとなり、NTTデータが解決できない(?:必要なものという表現をしていましたが)ものについては Cloudera 本体にエスカレーションされるということでした。調べる必要がありますが、もし、 NTTデータが間にはいっていることで費用が割高になっていることがあるのだとしたら、 Cloudera に直接サポートしてもらいたいと私は思います。
      Cloudera にしても、レベルの低い内容の問い合わせがきたときに、それにいちいち煩わされたくないという思惑から、一度スクリーニングをかけたいということもあるのかもしれないですが、あくまで顧客の側の意見から言わせてもらうと、プロダクトの提供元とは直に話したいですね。※相応の技術があり、英語での交渉が出来るならよりそう思うのではないでしょうか?

最後に、本日、私が本セミナーでとってきたメモを共有しましょう。

※後日、私自身が振り返った際に、それぞれのセッションについて感想を追記しようと思います。

2011/06/02 11:00 - 挨拶

  • ほぼ満席
  • Hadoopへの関心
  • しのぎを削るマーケット
  • EOSL問題、製品のライフサイクル
  • 長い間、面倒をみてもらえない問題
  • 長い期間、面倒をみてもらいたいのが顧客心理
    → OSS がその解のひとつになるのではないかと考えている
    → Hadoop もそのひとつの解
    → Cloudera との提携
  • Enterprise 市場において Hadoop

2011/06/02 11:05 - 企業内データへの新しいアプローチ Key advantages of Cloudera's New Offerings

Cloudera

ApacheHadoop is a powerful open source software package designed for sophisticated analysis and transformation of both structured and unstructured complex data.

Apache Hadoop と Cloudera の概要

  • Change in the industry role of Hadoop
  • Cloudera working around this
Dramatic Changes in Enterprise Data management
  • Some important change
    • Big data, become a big problem to the most company
      • Video, audio.
  • Much larger, more diverse, coming to most places.
  • Hard problems -> Deep analysis
    • Exhaustive and detailed
  • Run sophisticated algorithms in parallel and generate useful results quickly
    • Machine learning. ###
    • Want to use clustering to understand the data.
Exploding Data Volumes
  • Analysts said, the customers will agree with this problem soon.
  • Online Web-ready devices
  • Social media
  • Enterprise
What is Apache Hadoop?
  • Two kind of important feature,
    • MR and HDFS.
  • Consolidates Everything
    • more complex and relational data into a single repository
  • Stores Inexpensively
    • Keep raw data always available
    • Use commodity hardware
  • Processes at the Source
    • Eliminate ETL bottlenecks
    • Mine data first, govern later
    • We now can store all the data in the servers.
  • Hadoop is flexible
  • Hadoop is open
  • Hadoop is scalable
  • Benefits
    • controls costs by storing data more affordable per terabytes than any other platform
    • Drives revenue by extracting value from data that was previously out of reach
      • OSS is important for using Hadoop
  • No lock in any vender
    • investments in skills, services & HW are preserved regardless of vender choice
  • Community Development
  • Rich Ecosystem
    • Enormous company become a Hadoop contributors.
      • > Why
apache Hadoop in the Enterprise
  • Strong penetration in all of the major traditional data management verticals
    • Clusters are growing as organizations find more and more use cases for Hadoop
    • Cloudera is growing rabidly
  • Average size of Cluster
    • 70 -> 210 nodes Two core use cases Extending Hadoops Penetration
  • Advanced analytics
    • Natural language processing
    • Machine learning
  • Data Processing
    • ETL
How Customers Use Hadoop
  • Financial Services
    • Risk management
      • Examine purchase behaviour across debit and credit properties to better identify high-risk customers
  • Telecom
    • BSS
      • Analyze calling patterns among users
  • Retail
  • Government
    • Traffic analysis
      • For security use, uses multimedia data from various source to build an actionable

to be Data-driven

Particular use case of Hadoop he emphasised
  • Product and content recommendation based on user behavior
    • > Search optimization using Behavioral analysis
  • activity on web site
  • clustering of users with similar behavior into cohorts
Content Optimization
  • ひとりひとりに最適なコンテンツに仕上げることができる→レコメンドを
His emphasis 2, Capture and analyze traffic data on a network to better manage band width among devices.
Network Optimization Based on Traffic Analysis
  • 顧客に信頼できる通信を提供するための分析に用いる
    • VoIP packetization and transmission
Clouderas overview
  • 3 years ago founded.
  • informix, oracle を使ってた RDBMS のバックグランドの CEO
  • Hadoop のそもそもの製作者と一緒に会社を立ち上げた。
  • 技術力の高いエンジニアが支える会社であるということを強調
Cludera's 3 key business
1. CDH Including Apache Hadoop
  • comprehensive platform for Hadoop
    • 統合環境として、単体としては使いにくい Hadoop をより使いやすく
    • OSS ダウンロードして使うのに、お金も申告もいらない
    • simplified
    • integrated
    • Reliable
    • Support
  • past 12 months -- 3376 patches are made by CDH
  • Cloudera is the major contributor of Hadoop
    • other -> Yahoo, Facebook, also NTT-DATA
  • OSS is the best way for you to *** Support , Cloudera in the Enterprise
  • Can provide tool for you to ease manage the Hadoop.
  • Migration, RDBMS to CDH, it can be easy.
  • For support

Prenty of good skill stuff, well trained.

2. Training program introduction.
3. Supports.
How Hadoop is deployed in the Enterprise.

Integrates with existing technologies

Next Generation Analytics Improve Financial Performance
  • Their research said the company can big data analysis grows their EBITDA > 20x more, Revenue 49% more, ROIC 30% up.
  • Next 10 years, it will become have more importance Big data analysis.
    • Can store, can analyze, and can value.
Customers and partners agrees - Cloudera leads in all major industries and partner categories.
  • Hadoop による Big data analysis はかならずあなたたちに必要になる。 そして、Cloudera はそんな皆さんの力にかならずなることができます。

2011/06/02 13:00- Cloudera社の日本市場への取り組み -> タイトル変更して、「Hadoop の導入にあたって」

Cloudera の日本事業のとりくみ

Hadoop と COSTCO
  • 生活との密着
  • Hadoop をイメージさせることが多い
  • 相似性
  • 必要以上のものを買って帰る→Hadoopの使い方と似る
  • 目的志向ではない
    • データをストアして、新たな気づきをえる
      • 昨夜、22時ごろ、チキンカレーの値段があがると政府への不満があがるといった雑学の番組
      • 一見関係のないものに相関関係があるというきづき
      • あらたな情報と情報の結びつきを考える : 回帰分析がなければ、相関性の真偽はわからない
Hadoop チャレンジ
  • スキルセット→エキスパート少ない
  • 複雑な構成、10+のコンポーネント
  • 管理、構成、モニタリング
  • インターオペラビリティー→DBMSやアナリティックスのサポートが限られている
Clouderaのミッション
  • OSSのプラットフォーム
  • エンタープライズレベルのサポートとトレーニング
  • プラットフォームの管理に必要なツールの提供する→管理、およびそのコストの軽減
  • 可視化とコントロールの確立→具体的ではない
  • リソース効率の改善
  • :スケーラビリティへの対処
Hadoop管理環境の比較
  • 数字 2009時点
  • 管理対象平均ノード数は差なし
  • スタッフ数で大きな差が現れる
  • 自社、55、Cloudera、6→ツール群による貢献、サポート支援、 164:1に対して、241:1 、689GB に対して 1011GB
スタッフ数の変化要素
  • 増加要因と現象要因
導入考慮点 最初に決めること
  • どのような結果を目的にするのか?
  • あらたな洞察、ビジネスコスト削減、管理するデータ量の拡大 などなど
  • 目的達成のためにどのような運用要素を最適化するのか?
    • パフォーマンス。利用効率。運用コスト。サービス品質。セキュリティ。可視化率。
考慮点2 適切な機材を使用する
  • Disk ドライブがどこにあるか認識をしたい
    • バーチャルレイヤー上はさけるべき、RAIDはさけるべき、リモートストレージは最悪の選択
  • サーバは機能性能より柔軟性
    • 容易なクラスター拡張。容易にコア、スピンドル比率が変更可能
  • NWも機能、性能より品質
    • 10GBはいらない。機材によっては意外に高い不良率。クラスターの拡大に対応するトポロジー
考慮点3 システム可用性とデータ量の保護
  • NNは高可用性が必要
  • バックアップの考え方
    • NNのメタデータは毎時やるべき、2日分は保持すべき
  • ユーザーデータ
  • ログシッピングスタイル
    • Distcp
    • データ取り込み時に複数サーバーへ分散
考慮点4 スクリプト
  • チェックを起動するためのスクリプト、ファイルを取り込むためのスクリプトなどなど :あまりすすめていない
    • 増えれば増えるほど管理がむずかしくなる
    • つくるほどに、何も大きく変わらない。
    • 保守の時間がかかってしまう。
    • 書いてる本人以外は満足感がない。
スクリプトを避ける データ取り込み
  • 多数のデータソース
  • 統合する
  • DIYが一般的な場合はほとんどない
  • Sqoop、Flume、Oozie
ETL と データストリーミング
  • 共通ディレクトリ構造
  • ジョブ連携
  • ワークフローツールの活用→必須
  • 一番多い間違い →ジョブが予定時間内に完了することを前提とすること →SLAのモニタリングは必要
Monitoring
  • Nagios、Hyperic、Zenoss
    • ツールに任せればよい
    • アラートの対応判断が重要→人
  • Hadoopを認識するクラスターモニタリング
    • ジョブレベルのモニタリング
      • 分析感覚でみたほうがよい
      • どのリソースを使用しているか、
      • この実行は前回と比べてどうか
      • この実行をどのように速くするか
      • 切り口が大切
マルチテナント
  • 個々のグループ、ユーザー、およびワークロードが同時に1論理Hadoopシステムで稼働する
    • 認証→CDH3には実装された
    • 権限→誰もが全て利用できるわけではない
    • リソース
      • クラスターを占有しているものは?
      • クラスターリソースのポリシーの確立とトラッキング
      • ただし、まだRDBMSによるような詳細な権限管理はサポートしていない。
結論
  • これだけのことをやる理由と時間は何のためか?
  • 結果的に他でできていないことの方が問題では?
  • 他に方法があるのでは?
  • どこは自分がやり、どこはやらないか
  • 小規模では問題にならないが。:そうでもないとおもう。小規模ならそもそもやる必要がない。
Hadoopの活用モデル
新しいデータ管理モデル
  • 価値のあるデータかどうかは考えず、まずはすべてのデータを取り込むこと
  • データの塊から価値のあるものをサルベージする
  • →すぐにBIに活かせるわけではない
  • 見つけた価値あるデータをEDWに受け渡しする
  • アーカイブする
  • →一般的には、データの活用度合いは下がってしまう。
  • →サマリデータのアーカイブをHadoopにそれを使うことで、データが参照されにくくなってしまうことを防ぐ
  • データサイエンス
ユーザーの導入視点
  • Linuxのように
  • 効率的な拡張
  • コストの削減
  • →アーキテクト
  • DWHのように
  • データステージング
  • 多様性、高速性
  • 新規データソース、新データサイエンス
  • →データ管理担当者
体制とフロー : なんてめんどくさい 直接のほうがいい
    • 運用支援ツール
    • コネクター
    • CDH
  • 日本
    • 認定トレーニング
    • サポート
      • L0,L1,L2 NTT data
      • L2.5 日本ローカル担当者
      • L3 本国
認定トレーニング
  • エンジニア育成が目的
  • 認定者更新コース
  • コミュニティーのイベントあり
まとめ
  • Hadoopプラットフォームで最も実績のある企業
  • 80%のHadoop運用企業が採用
  • 多数のHadoop Committerが在籍
  • Hadoopコードの保証
  • サポート

2011/06/02 13:40- 金融システムにおけるHadoop活用の可能性

事例紹介

金融情報システムの変遷

主に銀行系
オンライン化の流れ
CIFの確立
情報系の登場
商品の多様化、勘定系だけでなく市場系
情報系の高度化
CRM

今後の発展を続ける
7000万から1億レコード
VISAの事例紹介 Hadoop World 2009 より
Hadoopの適用領域
横軸データサイズ、縦軸データの精度
既存処理の高速化、大容量データ処理

金融分野のなかでどこに当てはめるか

データ量
勘定系、市場系、顧客情報系、CRM
計算量大
リスク管理、収益管理、原価管理

リスク分析にNTTDATAは適用検証した
キャッシュフロー計算と現在価値の計算方法
少ないデータでもこなせるのか?
月次バッチ、120MBの入力データ
計算中に、数十GBになる
Hadoop適応に向けた課題
既存システムとのハイブリッド
→既存の金融処理を刷新はむずかしい
データ転送を少なくできないか
システム間

既存処理と Hadoopハイブリッド環境の処理で時間を比較

スケーラビリティ
→データサイズが小さいことがネック
→台数によるスケールをしなかった
処理時間
→処理方法自体は同じ場合、25%短縮、Oracleにもどす処理が遅かった
→処理方法自体を見直したら 97% 削減
システム構成の改善は
最低限のデータのみを転送し、異常時用のデータは転送しない

コストの試算

既存システムをそのまま使えたか?
基本設計 △
詳細設計 ×
テーブル定義 ◎

全体のコスト
→RDBMSのライセンス費用
増加
→ノードの購入
→運用費用

まとめ

⑴リスク計算処理のデータ量でもスケールアウト効果はある
⑵ハイブリッドでも効果はでる

今後の展開

リテール分野
リスク管理分野
勘定系のバッチ処理の一部計算切り出し
金融分野の新規活用
→e.g. RFIDを用いて(物品の正確な位置と個数)をセンシングすることで、ファイナンスに活用する事例
:データ件数の多い処理

14:20〜15:00 Big Data/Hadoopによる新しいビジネスの創出に向けて

Hadoopとは何か

BI 従来のプロダクトでは処理が厳しくなるのは 100TB 以上。

それ以上のデータを扱いたい場合に活用できるのが Hadoop

大量高可用性データストアにGUIなしのETLツールが付随しているイメージ
非構造化データの解析

従来の類似技術ではリーズナブルに実現できなかった大量データ分析をリーズナブルに実現できる技術

これまでできなかったことができるようになる、例えば

イメージ
アクセスログ、カーナビ通信情報、携帯電話の通信情報。。。

動的(時間的にみて大きく変化する)特性を時間軸につかって分析すうることが可能

具体的には?
→コンビニ
→コンビニでの購入情報とその人の移動情報を紐付けられたとしたらそれを分析する
→GWのUターンラッシュ時にりょこうがえりの人向けの広告をだす

行動に対する結果の分析
相手に対しての関係

他の活用例
Webアクセス解析

Hadoop導入事例 KDDI

10-100TB をこえる
規模感
毎時 100GBのデータ受信
300台

CDH2→MR、HDFS
ジョブネット、ParallelSSH

構築後にいろいろわかったこと

NNのヒープ領域逼迫
→ファイルの大小によらっず、Reducer数の設定をすると、小さいファイルの際に非効率に小さく分割されることにより、HDFSメタデータに登録されるエントリー数が容量に比して多くなる。結果的にNNのヒープ領域を浪費

HAR化を検討中
→アーカイブ化してエントリ数減らす
他のソフトウェアと動くジョブとの干渉
→MRジョブで加工したデータをさらに別のフレームワークを使って加工するジョブを組み込むと、その別の処理のフレームワークを使って加工する際にDisk IOが大量発生し、その影響でMRが異常終了

Hadoop ClusterはHadoopのみで使う

いい意味でハマる理由

(1)Moving computation is cheaper than moving data.
(2)開発言語がJavaであるという敷居の低さ
(3)Write Once, Read Many
古いデータの書き換えがない場合にはこのポリシーが向いている
余談
(1)助け合い精神を持つべく組織化されている
→JTのしたのTTがReduceジョブで遅い物がいたばあいには、、周囲のTTが助けるというような挙動をすることがある
(2)大量データを扱う上で痒い所に手が届く
→ゴミ箱機能のようなものがある、誤削除防止

今後のHadoopの普及に向けて期待する点

DWHアプライアンス製品とのコネクター
→未リリース分の早急なリリース

よくある QA

(1)ためている100TBのデータをHiveで1時間ほどでとれないか?

おそらくできない
Nodeをならべればできるかも
(2)商用の製品と同様のサポートはあるのか?

Clouderaのサポート。
(3)Hadoop周辺の製品

ParallelSSH や Ganglia
(4)どういう領域にHadoopが使えるか?
追記型
データ量は多いがジョブは少なめ
100TB以上
DB、BIは別途存在→加工、蓄積のエンジン

2011/06/02 15:25 - Cloudera 版 Hadoop ディストリビューションの最新バージョン "CDH3" のご紹介

CDHとは

NTTデータとClouderaの提携
→日本におけるHadoopの普及

CDHのサブスクリプション販売
Cloudera教育サービスの日本語提供
より高度なサービスを提供できる体制の実現→ノウハウはNTTDATAにも溜まっているがより高度に
CDHとは
→Cloudera社が提供するHadoopのディストリビューション

Hadoopに関する各種ソフトウェアが収録されている
→周辺ソフトは多々あり、それを組み合わせて利用する

CDH3を選択する理由

(1)Hadoopの導入コストの低減
→簡単なインストール&起動停止
(2)各種プロダクトの組み合わせ動作問題からの解放
Hive、Pig、Sqoop、HBase など
→Hadoopに連携して動作する周辺プロダクトが多数存在する
→各プロダクトはそれぞれ独立したプロダクトであり、バージョンアップは各々のペースで進む
→スナップショットをきって組み合わせる必要が発生する
ある程度、健全に動作することが確認されているところから始められるのがメリット
他のディストリビューションと比較したCDH
→コミッターを多数かかえる 30名
→コミュニティー色が強い ###
→Clouderaのページからの参照 Common、HDFS
→高品質なHadoopを提供する ###
0.20.2 をペースと定めて新機能の先取りと品質向上を行う
→パッチ適用の増加曲線 図
品質向上のためのパッチ適用も多数
DWH製品とCDHを比較して
→他社のDWH製品と比較したCDHの優位性

(1)Hadoopでしかできない馬力を必要とする処理が存在する
→クリックデータ、センサデータ、PB級のデータを処理
(2)スモールスタートが可能
→手元のIAサーバ数台から始められる
日経コンピュータセミナーからの資料
→リクルート 特性ごとの製品評価
DWH製品と組み合わせて使うこともできる
→DWHアプライアンスを利用するメリット

列指向データ構造をいかした検索
GUIやレポーティングツールなど周辺機能が充実してる
多くのDWHベンダーがCloudera社と提携をはかりつつある
Teradata
EMC
Greenplum

CDH3に収録されるHadoop関連プロダクトの紹介

複数のプロダクトと組み合わせてディストリビューションといっているCDH
Hadoop本体
(1)認証、認可などセキュリティの強化
→Kerberos認証、なりすまし撲滅
hdfs mapred ユーザへの権限分離
Sticky Bit
MR の ACL
監査ログ
(2)機能拡張、性能改善
HDFSが同期書き込みをサポート
ジョブの処理性能
NN、JTの省エネルギー化
Hive
HiveQL
Facebookの寄贈
HiveQLの使い方サンプル
Hive CDH2からCDH3になったことでの新機能
暗黙の型変換
Left Semi Join
BucketMapJoin
など
Pig
簡単な言語で処理の実現
データの操作を意識しながら処理を記述することができる利点
SQLは苦手だがデータの流れを追うのは得意な人はPig向き、R言語を使っていた人など
→データフローをシンプルな言語で記述
→Y!

CDH3では、0.5 系から0.8系に
性能面の大幅向上
分析用関数が大幅に追加
自作MRアプリケーションが組み込めるようになった
ちょっとだけデモ
HUE
CDH3で同梱された GUIツール
MBP の Virtual Box中に作られた環境
ブラウザベース
Queryのエディターがある
→HiveQLを実行可能
Sqoop
RDBMSとHadoopとの間のデータのインポート、エクスポートを行うもの
→MySQL、PostgreSQL、Oracle
→Hive、HBaseのテーブルにデータを移行することも可能
HBase
巨大なデータへの対応が可能な分散型データベース管理システム
→ランダムアクセスが可能
→OLTP可能、Blogの書き込みなどをイメージするとよい
→BigTableを参考に実装

RDBMSと比べた時、機能は限定されるが、スケーラビリティがある。
→ノード追加による性能向上
Oozie
Flume
Whirr

CDHサブスクリプションサポートについて

お客様
↑↓トラブル対応依頼、技術問い合わせ
Hadoop問い合わせ窓口
NTTDATA
↑↓必要に応じてエスカレーション、回答受け
Cloudera
対応方法
→Email
問い合わせ対応方法
→別途料金
故障対応
契約内容
従量課金(1ノード25万円、5ノードから)、1年単位の契約
CDHサブスクリプション・サポートの対象プロダクト
HiveもCDH3でサポートされてるようにみえる
New Features in CDH3 - Cloudera Support

NewFeatures in CDH3This section summarizes the high level changes and most important new features in CDH3 as compared to CDH2. Please refer to the individual project release notes, (found here) for links to the detailed change lists. For upgrade instructions, please refer to the Upgrading to CDH3 in the CDH3 Installation Guide.
If upgrading from a beta release of CDH3, please refer to the CDH3 Beta Release History for information on the changes between beta releases.
CDH-wide changes
CDH3 adds support for the following new host platforms:
Red Hat Enterprise Linux (RHEL) 6.0
SUSE Linux Enterprise Server (SLES) 11
Ubuntu Lucid and Maverick (32- and 64-bit versions)
CDH3 removes support for the following host platforms:
Debian Lenny
Ubuntu Hardy, Jaunty, and Karmic.
Java artifacts for all components are now published to a Cloudera maven repository

2011/06/02 16:05 - Hadoop活用のすすめ

基盤事業本部の紹介

OSSの部隊

Hadoopとは?
Hadoop Clusterの全体像
HDFSと MRフレームワーク
開発者としてみたHadoopの特徴

個別設計する必要がなく、分散処理を実現
→分散処理を比較的気軽に利用できる
高いスケーラビリティ
コモディティサーバ利用を前提とした設計
様々なデータに対応
:気楽に始めて大きく育てる

Hadoopが求められる背景

経産省の資料
より大きなデータを処理しなければならなくなってきている

OSS活用の観点からみた Hadoop

従来技術は必要十分な性能を持った後発のローエンド技術に凌駕されていく流れに乗って必要十分を追求してきた

従来技術でこんなんであった領域にチャレンジするOSSに。

OSSは、コモディティ製品を使い切る
→先進技術を身近にする

HDFSの特徴

さまざまな粒度での故障を前提としてデータ喪失を回避する仕組み
クラスタ内のディスク書き込み帯域…

HDFSの特徴

データ保存とファイルデータの保障
レプリケーション
死活監視

MRフレームワークの特徴
HDFSと連携した処理を割り振り
Hadoopの適用分野

Clooudera のページ
(1) 大規模データの全走査、転記処理
(2) リアリスティックな処理時間
(3) スモールスタートにも適している

Hadoop導入プロジェクトのはじめかた

(1) 目的の明確化
(2) 大量データから何を見出せるか、活用できるか?
(3) コモディティ技術を使い切ることによりコスト的に適用可能な着手可能領域が増加する

気楽にシリアスに。
CDH3、ダウンロードは無料
困った時はサポートを使って欲しい

データ指向のIT化

新しいデータ管理モデル
従来はプロセス指向だった、データの扱いはETL

データ指向へ
とにかくためる、そして分析する、活用する
→Hadoopはそれを実現できる
柔軟な ETL および ELT

Hadoopが解決してくれることとしてくれないこと

してくれる ◯
分散処理をみぢかに
分散環境を容易に
してくれない △
偏りのないデータの分散配置
スループットの最適化
バランスのよいシステム構成

プログラムによる

RDB VS Hadoop

RDB
→データを管理、正規化
→一度の走査は小さく、重複保持しない
Hadoop
→データを管理しない、非正規化
→ 一度に走査を大きく、重複保持を許容する

適用事例

(1)帳票処理
(2)RDBベースの既存処理を Hive を用いて移植
→データの流れや処理順序の制約を見極めてリファクタリングする
→大きな走査単位を見つけることがポイント

まとめ

Hadoop
(1) スケールアウト技術を身近に
コモディティ技術の使い切り
新しい処理モデルやデータモデルを採用
(2) いままで扱うことが難しかった領域を切り開く

BizXaaS の紹介

Hadoop 評価検証支援
Hadoopシステムインテグレーション

Hadoopを本気でやってみたい人を募集

リクルーティング

2011/06/02 16:39:52 に終了。

Appendix.

Togetter - 「Hadoopエンタープライズソリューションセミナー」

6/2に開催されたHadoopエンタープライズソリューションセミナー〜 Big Dataを経営の力に変える鍵を探る 〜に関するつぶやきです。

@wyukawa さんによるトゥギャり。


Hadoop徹底入門

Hadoop徹底入門

  • 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗
  • 出版社/メーカー: 翔泳社
  • 発売日: 2011/01/28
  • メディア: 大型本
  • 購入: 14人 クリック: 668回
  • この商品を含むブログ (43件) を見る

*1:セミナーに参加する前から前向きでしたが