Hbase勉強会+Hadoop座談会のアンケートのまとめ

まぁちょっと遅くなったのですが、やっと時間が空いたので
アンケート結果のレビューをしてみます。

Hbase@FacebookFacebookのJonathan Grayさんのお話の勉強会でした。

1:Hbaseを導入していますか?有効回答:114
本で読んだ 63(55.3%)
触っている 39(34.2%)
体制を構築した 7(6.1%)
POC中 2(1.8%)
Hbaseなら任せろ 3(2.6%)

過半数が本・雑誌読んだという状態でした。
もっともHbaseの勉強会でのプロダクション提供を
おこなっている人という質問に対して
挙手がほとんどいなかったことを考えると
そのような状況なのは仕方がないところかな、と思います。

まぁ一方で実際に触った人が1/3を超えているの興味深いところです。
体制の構築とPoC中でも計9件の方(8%)が挑戦中という状態です。
典型的なアーリーステージと言っても差しつかえないでしょう。
オイラに任せろという方も複数いらっしゃったのは心強いですね。

2:利用用途有効回答のうち、主なもので集約すると以下のようになります。

アクセスログ等のWeb系のログ解析やその他の解析用途 17件
もう少し広義のデータストレージ 25件
リアルタイム処理と考えている 6件
その他の処理 11件
検討中・よくわからない 12件
某KVSの代わり(数字は伏せさていただきます)

(あと一件、割と具体的な用途が書かれてありましたが
それも伏せさせていただきます。
今まさに必要とされているサービスだと思います。
応援しております。頑張ってください。)

印象としては、わりと漠然としてはいますが、
ログ解析や一時データの置き場として考えているケースが多かったかな、
と思いますが、その一方で
単純なWebログの保存ではなく、割と広義のデータストレージと見ているケースや、
Web系のログではないデータを保存するターゲットとして
挙げている方も結構いらっしゃいました。
一般に広い用途での利用が考えられているようですね。
一部で「スーツでの出席者が多い」という声が多かったですが、
それを裏打ちしているかもしれません

3:完全分散モードでの起動プロセスを書いて見よう
まぁ、ここはもう完全にスルーした方が良いでしょう。
きっちり全部書けていた方は2名でした・・・・
Hbaseなら任せろとの不一致についてもノーコメントとさせていただきます。
まぁ世の中そんなもんです。

4:Hbase以外で興味があるデータストア
Cassandra 64
CouchDB 24
VoltDB 22
HiRDB 6
Db-Magic 1
その他 33

その他は勿論ダミーで入れており、想定通りにほとんどがMongoDB(21)でした。
まぁ素直にMongoを候補に入れておけばいいのに、
この辺の無意味なTrapがこだわりな感じですねぇ〜。

ぶっちぎりはCassandraです。
ある意味Hbaseと好対照な分散ストレージですので
当然といえば当然ですが。
現在のところ3巨頭体制で、Hbase、Cassandra、Mongoというのは
ほぼ流れ的に確定的といえるでしょう。
一般にそう言われてますが、今回見事に数字ででた印象です。

5:どれがUCとして近かったか?
TITAN 23
PUMA 58
ODS 16
kzk 6

もうぶっちぎりでPUMAですね。
当然といえば当然です。これも想定通りです。
OSSとしてリアーキテクトして公開するという
意味での期待も高まっています。
特に一回ストレージしたデータをどう処理するか?
というのは非常に難しい問題があるので
強弱の違いはあれ、全員興味があったところかと思います。

印象としては、Puma自体に興味を持つのはある程度、
Hbaseなりその手のものを知っていることが前提にはなるので、
参加者がほぼ一定の水準を突破していることを
示唆していると思われます。

kzkが6票っていうのは意外ですね。特にぴーPFの方々の(ry

Hbaseについては以上です。
尚、Jon宛てのメッセージは本人に送付予定です。
ご協力ありがとうございました。


次に同時に行われたHadoop座談会のでアンケートの結果です。
HbaseとHadoop座談会で、同じ時期の勉強会ですので
併せて見れば、現状のHadoopに関わるひとたちの
像がひとつ見えるかもしれません

1:Hadoopの利用目的はなんですか
有効回答:128
BI 33(25.8%)
基幹バッチ 32(25.0%)
利用しない 54(42.2%)
その他 9(7.0%)

まず、BIと基幹バッチでの利用用途がほぼ同数
現行の状況を見る限り、Web系の企業ではほぼBI系に
一般企業系では基幹(という業務処理)バッチに
という流れが見て取れるので、
ちょうど均衡しているのは興味深いですね。

ただし、現時点で「利用しない」というのが、
最大多数であり、まだまだHadoopは検討状況
ということがわかります。
もっとも、BIと基幹を合わせると50%超になるため
Hadoopはほぼ市民権を得たと見てもいいのかなとは思います。

2:CDHへの期待ここは文章回答でしたが、25件程度

ほぼ内容は一致しており、
バージョンアップ・安定化ですね。コストについてはノーコメントとさせてください
まぁご想像の通りです。

3:Asakusaをご存じですか?
行ったことがある 27
Webや雑誌で読んだ 84
評価中 19
開発中 2

Asakusa関係者としては、うれしい数字でした。
まぁリップサービスもあるとは思いますが、認知度が高いのは
素直にうれしいです。
正直、かなりシビアな結果を想像していたのですが・・
特に評価中の19と数字は、
ちょっと意外に評価されているな思いました。
やはり、基幹系バッチへのHadoop適用は興味のある分野だな、
ということが実感できます。
Asakusaは現在鋭意追加機能の開発中ですが、
いかんせん情報の露出が少ないので
今後は積極的に情報を出して必要があるな、
と感じています。

4:バッチ関係の質問ですね処理時間・データ容量・問題点(Hadoopへの移行)は如何でしょうか?

まず処理時間ですが、
3-4時間というあたりが最も多い回答になっています。
最長は24時間ですね。
最短だと数十分という感じです。
ただ、ほとんどが数時間の記述になっています。
(数ヶ月というのありましたが、それは置いておきます。)

やはりバッチ処理は数時間になるのが相場のようです。
経験的には数時間を超える処理はアベンド時の処理が
なかなか面倒になることが多く、
運用の負荷も高いことが多いですね。

データ量ですが10数G〜数Tという回答が
もっとも多いレンジになっています。
まず、基本的にビッグデータではない、
ということが基本ですね。
Pクラスは一件もありませんでした。
最大で数百Tです。

データ量と処理時間の兼ね合いも見ると、
10数G〜100G程度のデータ量で3-4時間という
内容が散見されます。
RDBMSでぎりぎりアウトなラインというのが現実でしょう。

今後のHadoopや分散処理を行う場合の
基準となるデータ量とそれに対する時間の目安には
なるのでは、ないでしょうか

それから課題・問題点ですが、

運用・異常系の処理・プログラム実装
サイジング・テスト・パフォーマンス
導入コスト等が挙げられていました。
もっとも多かったのは「運用」です。
メンテナンス・リカバリープラン・
移行等の問題点が挙げられています。

製品の展開の場合は、
経験的には「運用」ということが上がるケースは
ある程度製品が認知されているケースです。
したがって、まずはHadoop
かなり試されているとみて良いでしょう。
その一方で、運用が課題として
上がっているのは、厳しい現実も垣間見えます。

正直、現在のHadoopプロパーの開発方向は
運用重視には必ずしも向いてない部分もあるため、
Hadoopを利用するフレームワークでは
このあたりをカバーしていくことが喫緊の課題なのかもしれません。

5:取り上げて欲しいテーマ
まず一番多かったのはHbaseです。ほぼ同数でAsakusaでした。
また、ニーズとして多かったのは、やはり事例になっています。
全体の傾向としては、まぁHadoop自体はもういいよ、的な感じが多いですね。

まぁ、今後の座談会の方針としては、より実践的なものが求められている
という風に理解しています。Hadoop自体というよりも
その延長線上にある、実績や具体的な手法・その先のものという感じです。

大体、以上です。
アンケートにご協力いただきました皆様
改めて、感謝申し上げます。