2004/09/12 | 「仕切りなおし」の判断 | | by:落伍弟子 |
---|
ここ数週間、トラブル対策の不手際にいろいろつき合わされました。
わたしは、ネットワーク全体の運営を任されている管理会社の者で、情報システム全体の担当者(N氏)の方と二人三脚で維持管理しています。
■計測装置と、その長期記録保管・表示システム
複数のセンサーを拠点に設置し、そのセンサーからのデータを24時間拠点のサーバに記録し、さらに複数の拠点サーバからデータを受信して一元管理する中央サーバがあります。
中央サーバでグラフを見ていると、データが欠乏しているところがありました。
リモートメンテナンスをする契約だったので、異常事態はメンテナンス会社が気付くとおもっていたのですが、利用者が発見。センサーの異状だったようです。
これで、リモートメンテナンスにちょっと疑問符が付きました。
夏には電源装置の定期検査や、ゲリラ雨で停電がありました。当然サーバはUPSで停電対策はしてあるのですが、なんと電源復旧にともなっての自動起動ができなかったのです。
ま、わたしのチェックが甘かったといえばそれまでですが。
でもサーバへのpingとHTTPポートには応答があったから、起動していると思ったんです。
これも、リモートメンテナンスで発見されたのではありませんでした。
で、正常起動していないので保守会社が来たのですが、その報告は
「再起動中に、途中で止まっていました」
というものでした。
しかし、保守会社の方からは「なぜ再起動中に止まっていたのか」という原因は教えてもらいませんでした。
これ、不安ですよね。
そこで、システムにログインして、ログを眺めました。
電源異常でシャットダウンしたなら、それなりのログが残っているはずですが、ときどきシャットダウンのログがなくて、再起動しているのです。
これ、再起動の途中で止まっているのはたまたまで、システムの故障ではないかと思えたので、その旨を連絡しました。
ところが、それから10日後にまたシステムが止まったのです。で、保守会社が来る前に私が見に行きました。モニタが付いていないサーバ機なので、小型の液晶VGAモニタをかばんにいれて現場に行きました。
なんとHDDエラーで、リモートからアクセスがあるたびにエラー表示を繰り返してました。
前の起動途中で止まっていたのも、これが原因ではないかなとも思えます。
(通常、HDDエラーがあったらシステムログにも記録されるはずなんですが、HDDの異状で記録されていなかったみたいです)
*******
問題は、そのフォローです。
■復旧に1週間かかった
HDDの故障と分かって(月曜日の夕方)、HDDの交換をすればよいわけです。
システムをインストールしたHDDを翌日に用意し、2日後には現場に届くはずだったのですが、発送が遅れて、2日後には届きませんでした。
さらに1日遅れ(木曜日)で、新幹線でHDDを保守会社に輸送するという話だったのですが、保守会社は来ませんでした。
というわけ結局修理にきたのは金曜日です。朝一番から復旧作業にかかっていたのですが、いつまで待っても完了の連絡がありません。
夕方の5時くらいになってから、
センサーの1つがどうしても接続できないので、土曜の休日に来させてもらえませんか
という連絡がきました。
これ、もっと早く連絡があれば対処の方法があるのです。でも、その時間には出張中の責任者や、現場責任者、休日の警備との連絡など、調整に名人であるN氏にももう無理でした。
■月曜に復旧したけど、また止まる
センサーが接続できなかったのは接触不良だったそうです。
しかし、すぐにサーバが停止することが発覚しました。保守会社がいうには熱暴走だそうで、サーバをラックにいれなければ動き続けるとのこと。
さすがにN氏もプチっときたそうで、「ほんとかいな」と再度調査を命じたところ、マザーボードの故障だったそうです。
うっかり、保守会社の話を鵜呑みにしていたら、わざわざサーバを鍵付きのラックからとりだして運営しようということになっていたわけです(それでもすぐに止まったと思いますが)。
■メンテナンスする側としての教訓
復旧作業で、延々と調査して(無駄な)時間を使うよりは、一定時間が経過したらあきらめて「仕切りなおし」すること。
そうすることで、冷静になり、別の解決方法を思いつくし、暫定措置もとれる時間の余裕も生まれます。
なにより、できるだけ早く顧客に事情を説明しと相談することは顧客側の対策作業に必須であり、信頼関係を維持するための最低限の義務でしょう。