Hbase勉強会+Hadoop座談会のアンケートのまとめ
まぁちょっと遅くなったのですが、やっと時間が空いたので
アンケート結果のレビューをしてみます。
Hbase@FacebookFacebookのJonathan Grayさんのお話の勉強会でした。
1:Hbaseを導入していますか?有効回答:114
本で読んだ 63(55.3%)
触っている 39(34.2%)
体制を構築した 7(6.1%)
POC中 2(1.8%)
Hbaseなら任せろ 3(2.6%)
過半数が本・雑誌読んだという状態でした。
もっともHbaseの勉強会でのプロダクション提供を
おこなっている人という質問に対して
挙手がほとんどいなかったことを考えると
そのような状況なのは仕方がないところかな、と思います。
まぁ一方で実際に触った人が1/3を超えているの興味深いところです。
体制の構築とPoC中でも計9件の方(8%)が挑戦中という状態です。
典型的なアーリーステージと言っても差しつかえないでしょう。
オイラに任せろという方も複数いらっしゃったのは心強いですね。
2:利用用途有効回答のうち、主なもので集約すると以下のようになります。
アクセスログ等のWeb系のログ解析やその他の解析用途 17件
もう少し広義のデータストレージ 25件
リアルタイム処理と考えている 6件
その他の処理 11件
検討中・よくわからない 12件
某KVSの代わり(数字は伏せさていただきます)
(あと一件、割と具体的な用途が書かれてありましたが
それも伏せさせていただきます。
今まさに必要とされているサービスだと思います。
応援しております。頑張ってください。)
印象としては、わりと漠然としてはいますが、
ログ解析や一時データの置き場として考えているケースが多かったかな、
と思いますが、その一方で
単純なWebログの保存ではなく、割と広義のデータストレージと見ているケースや、
Web系のログではないデータを保存するターゲットとして
挙げている方も結構いらっしゃいました。
一般に広い用途での利用が考えられているようですね。
一部で「スーツでの出席者が多い」という声が多かったですが、
それを裏打ちしているかもしれません
3:完全分散モードでの起動プロセスを書いて見よう
まぁ、ここはもう完全にスルーした方が良いでしょう。
きっちり全部書けていた方は2名でした・・・・
Hbaseなら任せろとの不一致についてもノーコメントとさせていただきます。
まぁ世の中そんなもんです。
4:Hbase以外で興味があるデータストア
Cassandra 64
CouchDB 24
VoltDB 22
HiRDB 6
Db-Magic 1
その他 33
その他は勿論ダミーで入れており、想定通りにほとんどがMongoDB(21)でした。
まぁ素直にMongoを候補に入れておけばいいのに、
この辺の無意味なTrapがこだわりな感じですねぇ〜。
ぶっちぎりはCassandraです。
ある意味Hbaseと好対照な分散ストレージですので
当然といえば当然ですが。
現在のところ3巨頭体制で、Hbase、Cassandra、Mongoというのは
ほぼ流れ的に確定的といえるでしょう。
一般にそう言われてますが、今回見事に数字ででた印象です。
5:どれがUCとして近かったか?
TITAN 23
PUMA 58
ODS 16
kzk 6
もうぶっちぎりでPUMAですね。
当然といえば当然です。これも想定通りです。
OSSとしてリアーキテクトして公開するという
意味での期待も高まっています。
特に一回ストレージしたデータをどう処理するか?
というのは非常に難しい問題があるので
強弱の違いはあれ、全員興味があったところかと思います。
印象としては、Puma自体に興味を持つのはある程度、
Hbaseなりその手のものを知っていることが前提にはなるので、
参加者がほぼ一定の水準を突破していることを
示唆していると思われます。
kzkが6票っていうのは意外ですね。特にぴーPFの方々の(ry
Hbaseについては以上です。
尚、Jon宛てのメッセージは本人に送付予定です。
ご協力ありがとうございました。
次に同時に行われたHadoop座談会のでアンケートの結果です。
HbaseとHadoop座談会で、同じ時期の勉強会ですので
併せて見れば、現状のHadoopに関わるひとたちの
像がひとつ見えるかもしれません
1:Hadoopの利用目的はなんですか
有効回答:128
BI 33(25.8%)
基幹バッチ 32(25.0%)
利用しない 54(42.2%)
その他 9(7.0%)
まず、BIと基幹バッチでの利用用途がほぼ同数
現行の状況を見る限り、Web系の企業ではほぼBI系に
一般企業系では基幹(という業務処理)バッチに
という流れが見て取れるので、
ちょうど均衡しているのは興味深いですね。
ただし、現時点で「利用しない」というのが、
最大多数であり、まだまだHadoopは検討状況
ということがわかります。
もっとも、BIと基幹を合わせると50%超になるため
Hadoopはほぼ市民権を得たと見てもいいのかなとは思います。
2:CDHへの期待ここは文章回答でしたが、25件程度
ほぼ内容は一致しており、
バージョンアップ・安定化ですね。コストについてはノーコメントとさせてください
まぁご想像の通りです。
3:Asakusaをご存じですか?
行ったことがある 27
Webや雑誌で読んだ 84
評価中 19
開発中 2
Asakusa関係者としては、うれしい数字でした。
まぁリップサービスもあるとは思いますが、認知度が高いのは
素直にうれしいです。
正直、かなりシビアな結果を想像していたのですが・・
特に評価中の19と数字は、
ちょっと意外に評価されているな思いました。
やはり、基幹系バッチへのHadoop適用は興味のある分野だな、
ということが実感できます。
Asakusaは現在鋭意追加機能の開発中ですが、
いかんせん情報の露出が少ないので
今後は積極的に情報を出して必要があるな、
と感じています。
4:バッチ関係の質問ですね処理時間・データ容量・問題点(Hadoopへの移行)は如何でしょうか?
まず処理時間ですが、
3-4時間というあたりが最も多い回答になっています。
最長は24時間ですね。
最短だと数十分という感じです。
ただ、ほとんどが数時間の記述になっています。
(数ヶ月というのありましたが、それは置いておきます。)
やはりバッチ処理は数時間になるのが相場のようです。
経験的には数時間を超える処理はアベンド時の処理が
なかなか面倒になることが多く、
運用の負荷も高いことが多いですね。
データ量ですが10数G〜数Tという回答が
もっとも多いレンジになっています。
まず、基本的にビッグデータではない、
ということが基本ですね。
Pクラスは一件もありませんでした。
最大で数百Tです。
データ量と処理時間の兼ね合いも見ると、
10数G〜100G程度のデータ量で3-4時間という
内容が散見されます。
RDBMSでぎりぎりアウトなラインというのが現実でしょう。
今後のHadoopや分散処理を行う場合の
基準となるデータ量とそれに対する時間の目安には
なるのでは、ないでしょうか
それから課題・問題点ですが、
運用・異常系の処理・プログラム実装
サイジング・テスト・パフォーマンス
導入コスト等が挙げられていました。
もっとも多かったのは「運用」です。
メンテナンス・リカバリープラン・
移行等の問題点が挙げられています。
製品の展開の場合は、
経験的には「運用」ということが上がるケースは
ある程度製品が認知されているケースです。
したがって、まずはHadoopは
かなり試されているとみて良いでしょう。
その一方で、運用が課題として
上がっているのは、厳しい現実も垣間見えます。
正直、現在のHadoopプロパーの開発方向は
運用重視には必ずしも向いてない部分もあるため、
Hadoopを利用するフレームワークでは
このあたりをカバーしていくことが喫緊の課題なのかもしれません。
5:取り上げて欲しいテーマ
まず一番多かったのはHbaseです。ほぼ同数でAsakusaでした。
また、ニーズとして多かったのは、やはり事例になっています。
全体の傾向としては、まぁHadoop自体はもういいよ、的な感じが多いですね。
まぁ、今後の座談会の方針としては、より実践的なものが求められている
という風に理解しています。Hadoop自体というよりも
その延長線上にある、実績や具体的な手法・その先のものという感じです。
大体、以上です。
アンケートにご協力いただきました皆様
改めて、感謝申し上げます。