【復旧】2016年1月12日発生の重大な障害につきまして

   2016/01/14

いつもTimelogをご利用いただき、ありがとうございます。

障害の発生のお知らせです。

ご迷惑をおかけして申し訳ございません。1/12の夜中4時12分頃から、Timelogにアクセスできない状況が発生しております。

原因を調べましたところ、弊社管理のウエブサーバではなく、サーバ管理会社に管理委託しているデータベースサーバに障害が発生している模様です。

同サービスを利用している他の顧客企業さんも同様の状況に陥っているようで、私たちも何もするすべがなく、サーバ屋さんの中の人を応援するしか方法がございません。

申し訳ございませんが、復旧まで、今しばらくお待ちくださいませ。

【12日13時37分追記】サーバ屋さんでネットワーク障害が発生したのが原因とのことらしいです。ざっくりしすぎてて何もわかりませんが、サーバ屋さんの倒産とかそういうことではなさそうなので安心しました。

【12日13時56分追記】サーバ管理会社から障害情報が出ました。

■トラブル発生日時について 2016年1月12日(火曜日) AM 07:00 頃から(現在継続中)
■トラブルの原因について データセンター側のネットワークの一部に障害が発生し、お客様から サーバーにアクセス出来ない状況となっております。

このネットワーク障害に伴いまして、ネットワーク内に設置されておりますDNSサーバーにアクセスが利用できない状況となりWEB・メールが 利用出来なくなっています。

ネットワーク障害の復旧完了まで今しばらくお待ち頂ますようお願い 致します。

弊社のサーバログの解析をいま終えましたが、最初の障害は、11日の22時37分15秒に発生しています。同12秒には発生していないので、この間に障害が発生したようです。この時間は普通にアクセスできていた方もいらっしゃった模様ですが、この時間にはすでにデータベースサーバへのアクセスのエラーが発生しはじめていた様子がわかります。

【12日16時04分追記】

障害につきましては、データセンターの方で対応しておりますが、まだ目途が立っていない状況です。

こんな情報を得ました。途方に暮れるばかりです。
せめてエラーメッセージで上記のことをお伝えしようと、カスタムエラーメッセージを試していますが、うまくいきません。あまり設定をいじると、データベースサーバが復旧してもすぐに表示されないと困るので、これ以上いじらないことにします・・・。

【12日17時06分追記】

2016-01-12 17:00
原因箇所の特定ができました。
まだ復旧の見込みをお伝えできるには至っていません。

との情報を得ました。

【12日18時54分追記】

2016-01-12 18:44
原因につきまして、当初ネットワーク関係のトラブルのみと考えていましたが、それだけでなくSANの一部に深刻な障害が発生していることがわかりました。
詳細な内容と復旧見込みにつきましては、わかり次第お知らせします。

との情報を得ました。他のユーザ企業さんたちと連絡を取り合って情報を共有していますが、どうもこれは深刻な問題がサーバー屋さんのデータセンターで発生しているようで、復旧には時間がかかるかもしれません・・・。

【12日20時25分追記】

2016-01-12 20:16
復旧見込み 1月13日午前4時を目標としています。

復旧見込みがようやく出ました。約24時間も障害が続きました・・・

【12日20時43分追記】

■本日の弊社サーバ障害について■

長時間に渡り、サーバーが停止しておりますことご利用ユーザー様に深くお詫び申し上げます。

障害原因の特定に時間を要しましたが、ネットワーク及びディスクの障害が発生していたことが判明し、現在ハードウエア交換作業を進めている状況でございます。

復旧目途として、約8時間後(1月13日午前4時~5時頃)の復旧を目指し作業しております。

ご利用ユーザー様にはご迷惑をお掛けして誠に申し訳ございません、重ねてお詫び申し上げます。

このような情報が出ています。

【13日0時46分追記】

本日発生の弊社サーバ障害に関し、ご利用ユーザー様にはご心配をおかけしております。

当初ネットワーク関係のトラブルのみと考え調査を進めておりましたが、SANの一部にも障害が発生していることが確認されました。現在、復旧に向けて障害箇所のハードウエア交換作業を行っております。

ご不便をお掛けして誠に申し訳ございません。復旧するまで今しばらくお待ちください。

との発表がホスティングプロバイダからありました。弊社は、実は最初からそれを疑っていました。

といいますのは、最初、ネットワーク障害によって、DNSサーバがダウンしていると発表されていました。しかし、弊社は、別途DNSサーバを立てているので、障害の影響を受けませんでした。ですので、本体サーバは、終始ずっと問題なく動いていることを確認しています。もちろん今も動いています。

実際、そのプロバイダの他のユーザ企業さんも、DNSを別途立ててそちらに移行したら動いたとの情報がありました。

しかし、弊社は最初の段階から、ログを解析し、本体サーバは動いており、SQLサーバ(データベースサーバ)が原因であることは突き止めていました。

DNSサーバだけの問題でSQLサーバまで落ちることはありえません。

ですので、ストレージ関連に障害が発生していたことは、容易に推測できておりました。

もちろん、RAIDなど、ディスク障害が発生しても復旧できる仕組みはあったのでしょうが、RAIDコントローラが壊れてしまうとやっかいなんですね。機械は故障しますから。

そして交換後、データを書き戻す作業は大変だと思います。今、ホスティングプロバイダの中の人ががんばってくれています。僕は何もすることはありませんが、情報だけはすぐにお伝えしていきます。ご迷惑をおかけしておりますが、今しばらくお待ちください。

【13日4時38分追記】

2016-01-13 04:34
午前4時の復旧目標でしたが、見積もりよりも時間がかかっております。
現在の進捗と完了見込みを確認中です。

らしいです・・・・

【13日8時11分追記】

■弊社サーバ復旧状況 1月13日08:10■

復旧作業が遅れております、誠に申し訳ございません。

現在、以下2つのトラブル発生を確認しております。
 1)ネットワーク(DNS)に関するトラブル
 2)ディスクに関するトラブル

当初、本日午前4~5時頃に復旧する見込みで作業を進めて参りましたが、作業完了がズレ込んでおります。現在データセンター側に作業終了のおおよその目安を確認中であります、復旧時刻の目途が立ち次第このページにてお知らせいたします。

ご利用会員様にはご迷惑をお掛けして大変申し訳ございません。

らしいです・・・・

そろそろ僕も寝たいです・・・

【13日11時55分追記】

2016-01-13 11:50
データセンタ側の担当者から連絡があり、現在SANディスクコントローラの変更
を完了しており、データの復旧作業中とのことです。
深刻な障害が発生しており、バックアップディスクやディスクに障害が発生して
おります。ベンダーサポート(Equallogic) が復旧作業にあたっております。
進展があり次第連絡させて頂きます。

だそうです。ようやく故障箇所が判明し、RAIDドライブのリビルド作業に入ったようです。大容量のものですと、リビルドは数時間かかると思われます。

ちなみに、Equallogicは、デルのサーバー向けディスクソリューションのようですね。デル担当者さんがんばって!!

【13日14時50分追記】

2016-01-13 14:30
現在、復旧のめどはたっていません。

なんか後退してない??

【13日15時41分追記】

■弊社サーバ復旧状況について 1月13日15:40■

現在のところ、復旧の目途はたっておりません。
新しい動きがあり次第、ご連絡申し上げます。

そうですか・・・

【13日19時15分追記】

2016-01-13 19:06
現在、復旧のめどはたっていません。

えええ・・・

【14日0時45分追記】

本日0時34分頃、データベースサーバへの接続が復旧し、Timelogが動作するようになりました。長らくのダウンタイムでご迷惑をおかけし、本当に申し訳ございませんでした。心よりお詫び申し上げます。

【追記終了】

  • このエントリーをはてなブックマークに追加
  • Pocket