ネットサービス

「さくらのクラウド」障害多発で無償化、課金できる品質に達していないため


「弊社としても、お客様が安心してご利用頂けない現状を痛切に感じており、一日も早く正常化を目指しておりますが、現在は課金をさせて頂ける状況ではないと判断致しました。つきましては3月1日に遡り、当面の間は「さくらのクラウド利用料」について無償化させて頂くことをご報告致します」ということで、なんと「さくらのクラウド」が無償化されてしまいました。

さくらのクラウドの現状報告および課金対応について | IaaS型パブリッククラウド「さくらのクラウド」
http://cloud.sakura.ad.jp/news/sakurainfo/newsentry.php?id=622


無償化せざるを得なくなってしまった経緯は以下のように説明されています。

 既に掲載のとおり、データを格納するストレージのパフォーマンス低下により、
頻繁に負荷が増大する状況が続いております。
 その為、改善を図ることを目的としたファームウェアアップデート作業を行わせ
て頂きましたが、メンテナンス以降に長時間の停止が発生し、且つ改善の効果も十
分には得られておりません。
 当該ストレージのメーカーとは、根本的な解決に向けて、努力を続けております
が、誠に遺憾ながら現状は完全な解決の目処をご案内する事ができません。

上記リリースだけだと一体何が起きたのかが不明ですが、昨年12月末から今年の3月16日まで、実に4ヶ月近くも更新され続けている障害報告ページを見るとその経緯が把握でき、この無償化がどれだけ苦渋の選択であったか、そして「さくらのクラウド」がどれだけのレベルの窮地に陥っているかがわかります。

「さくらのクラウド」ストレージネットワーク障害に関するご報告(3月16日更新) | IaaS型パブリッククラウド「さくらのクラウド」
http://cloud.sakura.ad.jp/news/sakurainfo/newsentry.php?id=603


まず一番最初は昨年の12月9日。

 この事象は、「さくらのクラウド」にて使用しておりますストレージシステムに関連す
るものであり、ご利用中のお客様におかれましては、ホストサーバがダウンし収容された
お客様のサーバにアクセスできなくなる現象や、ディスクに対する読み込み・書き込み処
理が不定期に失敗し、ご利用中にサーバのエラーログおよびコンソール画面にその症状が
出力される現象が発生いたしました。

 原因としては、特定パターンの通信がストレージネットワーク用のインターフェースに
影響し、通信障害が発生しておりました。

この件については、

・通信障害を起こすパターンを検出し、その発生を未然に防ぐ構成および設定の導入


・関連するKernelパラメーターチューニングによるストレージシステムの耐障害性向上

によって、12月25日になんとか回復、12月1日~12月31日の利用料金が無料化されました。

が、年明けの1月にさらに障害が発生します。

■障害の内容
ホストサーバとストレージの間において、ディスクアクセスが増加した際に、
お客様サーバのレスポンス悪化やサーバダウンが発生しておりました。

■原因
さくらのクラウドではお客様サーバのデータを集中型のストレージに格納しております。
このストレージに対し大量のディスクアクセスが発生した際に、ホストサーバとスト
レージの通信が途絶する症状を確認いたしました。
また、この影響によりストレージネットワークの一時的な停止や、ホストサーバが
ダウンに至るケースを確認いたしました。
ホストサーバのダウンについては、カーネルダンプを解析した結果、当社で採用して
いる仮想化基盤(KVM)のバグであることを確認いたしました。

これについてはアクセス上限設定に伴い、サーバ上のディスクアクセスが極端に遅くなる事象が今度は発生、根本的な解消には至らず。

しかし2月に再度、トラブル。

■ホストサーバのダウンに関する状況と対策
引き続きカーネルの解析を進めるとともに、現象の顕在化を抑えるべく、ストレージの設
定の見直しを進めております。これにより現状では顕在化しにくい状況となっております。

■2月22日に発生した障害について
ストレージ装置を管理しているシステムプログラムにおいて、複製や削除等の処理が集中
する場合に、ストレージアクセスに支障が出る障害が発生致しました。現在、ファイルシ
ステムへの処理オペレーションについて見直しを行い、サービスに問題がないよう変更を
行いました。

■ストレージに関する状況と対策
お客様サーバの増加に伴うディスクI/Oの増大に対処するため、ストレージの増強を実施
することと致しました。その最初のステップとして、ストレージ装置を追加し処理の分散
を実施します。

そしてトドメ、3月に入って断続的にパフォーマンスの低下が発生し始めます。

■ホストサーバのダウンに関する状況と対策
引き続きカーネルの解析を進めております。現在の対応はストレージの設定見直
しによる顕在化抑制を行っております。

■ストレージのパフォーマンス悪化に関する状況と対策
3月初旬より断続的にストレージのパフォーマンスが低下する症状のお問い合わせ
を頂き、弊社も状況を把握しております。
症状は一定以上のアクセス負荷が発生した場合に確認されており、その際は弊社
想定よりも大幅にパフォーマンス低下していると捉えております。
パフォーマンス低下の原因箇所はストレージシステム上にあり、現在対策の
有効性を確認しております。

今回の無償化については「十分に課金のできる品質であると判断させて頂きました後に無償対応を終了させて頂きます」とのことなのですが、そもそも一体どこのストレージメーカーのものを使っているのかというと、「Sun ZFS Storage Appliance」というもの。

オラクル・アジアパシフィック&ジャパン メディア・センター - オラクルの「Sun ZFS Storage Appliance」がさくらインターネットのクラウド・サービスのストレージとして稼働開始
http://japanmediacentre.oracle.com/content/detail.aspx?ReleaseID=1501&NewsAreaId=2


これが実物の写真


・さくらインターネットは「さくらのクラウド」を実現するストレージ基盤として、サ
ーバーとストレージ間の高速インタフェースと、トラフィックの大幅増加へ対応するた
めに複数台の装置を連結できる拡張性を重視し、InfiniBand対応ストレージとして既に
実績を有する「Sun ZFS Storage 7320 Appliance」の採用を2011年5月に決定しました。
約6ヵ月の検証期間を経て、本日のサービス開始までに「Sun ZFS Storage 7320
Appliance」を複数機採用・稼働しました。

ということで、以下の特長を高く評価した結果だそうです。

・10Gbpsのイーサネットとコスト面で同等で、40Gbpsの広帯域を実現するInfiniBandへの対応

・電力コストの低減を目的に、ディスクとフラッシュ・メモリを有効利用した、高いI/O転送率と低消費電力を両立

・「Sun ZFS Storage Appliance」が実装する仮想マシンを複数展開する際に使用するクローンやスナップショットなどの機能により、10~15秒以内で仮想サーバーを生成することが可能

・ストレージ側でファイル・システムを集約し、多数のサーバーからの接続が容易となるファイル共有システム「NFS version 4」への対応

・ストレージの状態を監視するソフトウェア「DTrace Analytics」により、Webブラウザ経由でストレージの状態を直感的に把握し、トラブル発生時にも瞬時に対応可能


なお、4月5日には「さくらインターネットのクラウドを支えるSun ZFS Storage Appliance:5つの選定理由」という講演が予定されています。以下がその内容です。

さくらインターネット株式会社は2011年11月、開発者志向のIaaS/パブリック・クラウドサービス「さくらのクラウド」をリリースしました。「何の変哲もないクラウドを、圧倒的なコストパフォーマンスで提供する」をコンセプトに、高い性能と拡張性、そしてシンプルなサービスメニューをわかりやすい料金体系で提供しています。
この「さくらのクラウド」を支えるストレージとしてSun ZFS Storage 7320 Applianceを採用した経緯を、5つのポイントを中心に解説します。

実際にはトラブル発生しまくりでとんでもないことになっているわけですが、今後、「さくらのクラウド」は一体どうなってしまうのでしょうか……

この記事のタイトルとURLをコピーする

・関連記事
トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE

Facebook最新の自社サーバとデータセンターの写真や仕様が満載、高度なサーバ効率化技術を公開する「Open Compute Project」開始 - GIGAZINE

4億個・70TB保存実績ありの分散オブジェクトストレージシステム「STF」無料のオープンソースとして公開 - GIGAZINE

DIYで超大容量を実現、90TBの手作りストレージ - GIGAZINE

最速10分でサーバが手に入る「さくらの専用サーバ」2月29日提供開始、ioDriveも選択可 - GIGAZINE

in ネットサービス, Posted by darkhorse

You can read the machine translated English article here.