東証、システム障害の原因は「人為ミス」、診断レポートを“解読”できず

日経コンピュータ

2012.02.16

　東京証券取引所は2月16日、2月2日に発生した大規模システム障害について、「（東証の）職員が主体的にシステムの状態を確認せず、問題なしと判断した」ことが原因だったと発表した。東証のシステム子会社である東証システムサービス（TSS）の担当者と、保守ベンダーである富士通のSEが診断レポートを誤認し、東証の職員が経営陣に適切な報告を怠っていたことが、対応の遅れにつながったことも明らかにした（関連記事）。

　障害を起こしたのは取引関係者に相場情報を配信する「情報配信システム」。サーバー3台を1セットとし、8セットで構成する。東証はサーバーを三重化しており、1台のサーバーに障害が発生した場合、残り2台に自動的に切り替えて処理を継続する。東証は切り替えに成功したと考えていたが、実際には失敗しており、同日午前中の一部銘柄の取引停止につながった。

　経緯はこうだ。

　午前1時27分、1台のサーバー（ノードA）でメモリーコントローラーの障害が発生し、監視端末にエラーを示すメッセージが表示された。これを受け、TSSの担当者は「障害診断ツール」を使い、診断レポートを出力した。

　その後、TSSの担当者は富士通のSEに対し、電話と電子メールで診断レポートの内容を報告。富士通のSEは診断レポートの内容を見て、残り2台のサーバー（ノードB、ノードC）が正常に稼働していると判断し、TSSに切り替え処理が成功しているとの見解を伝えた。TSSはその見解を東証の職員に伝え、東証は「当日の売買業務への影響はない」と判断した。

　東京証券取引所グループIT企画部の田倉聡史統括課長によると、診断レポートには「ノードAは死にかけているが、ノードB、ノードCは正常に稼働している」旨の記載があったという。それを見た富士通のSEは、正常稼働していると誤認した。

　だが実際には、ノードBとノードCが処理を継続するには、「ノードAが処理不能だと表明し、“バトン”を渡す必要がある」（田倉氏）。診断レポートには、ノードAがバトンを渡していないことが記載されていたが、それを富士通のSEは見逃した。「レポートの該当部分を見れば、処理が切り替わっていないことが分かったはずだ」と田倉氏は説明した。診断ツールには問題がなく、きちんと状況を分析していたが、診断レポートを読み解く人間の側に問題があったとの見解を示した。

　障害発生時の報告体制にも不備があった。東証のシステム担当者は自ら主体的にシステムの状況を確認せず、TSSからの報告のみで「当日の売買業務への影響はない」と判断し、処理が切り替わっていると誤認したまま午前2時44分に障害対応を完了。経営陣への報告を行わなかった。

　経営陣へ報告すべきだと判断したのは、午前7時38分に一部の銘柄の相場情報が配信できないことが判明してからだった。システム本部長である鈴木義伯専務取締役に連絡が取れたのは、鈴木専務が出社した「午前8時頃だった」と東証IT開発部の宇治浩明株式売買システム部長は認めた。

　東証は障害対応体制の改善や確認手順の明確化など、大きく四つの再発防止策を3月末までに順次実施するとした。さらに、責任を明確にするため、斉藤惇社長ら役員4人の月額報酬を20～30％減額する処分を発表した。

　なお、切り替え失敗の原因については「調査中」とし、明らかにしなかった。