【実話】社内SEの障害対応

【実話】社内SEの障害対応

社内SEをしていて一番しんどく感じるのは、社内システムのトラブルです。特に転職や入社した直後に発生した場合なんて、しんどいですよね。今日はそんな頃のお話です。

障害が起きた時、社内SEはなにをしているのか

ワーキング

現場でなにかしらいつもと違うシステムの挙動や表示されている内容に不備があると、社内でアラートがあがります。

大半は、「システムが起動しない!」「昨日締めたのに手元の資料と数が違う!」などです。

障害対応は迅速かつ正確に

現状分析

障害内容により、かき集められる人がかわり、対応も変わります。共通して呼ばれるDB担当と基盤担当の人は毎回大変そうです。

前者の場合、APサーバかDBサーバの不調

後者の場合は、バッチサーバかDBサーバの不調

障害が発生してから社内SEは、自分の領域でなにが起きているかをまず把握し、そこから、広報、システムが使えない時の対応方法のアナウンス、コミュニケーションフローの確立をしていきます。

原因が判明したら、そこで行える対応を検討します。恒久対応ができるのか、暫定対応なのか、運用での回避なのか。この意識決定を迅速に行うことが、社内システムの障害を解決するまでのキーとなります。

対応が完了した後は、業務が通常に戻ったかどうかを確認して、障害対応チームは解散となります。この時、恒久対応が残っている場合は、いつまでに誰が何をするのかを明確に定義して、役割分担をして、解散とします。

障害解消した後の社内SEはなにをしているのか

考えること

障害対応が終わり、復旧したあと、現場の人たちも通常の業務へ戻ります。

そう、社内SEも障害対応が突然の割り込みタスクで入るため、自分の業務へ戻らないと、今度は自分が障害になるんですよね。

協力したらいいじゃん?とよく思いますが、意外と属人化しやすいためか、代わりがきかない、頼んでおいたけど、やっぱできない、最近だと、できないと思ってるけどやってみた感だけがほしいやつも現れて、結果的にも自分のタスクは減っていないんですよねー

結論、障害って嫌だよね

まとめ

障害がないシステムが、理想ですが人が創るものである以上は、不具合はつきものだと思っています。

なので、いかに早く、的確に、原因を見抜き、現状復旧させるかに力を注ぎ、根本対応は通常タスクに積む、くらいがいいですね。

僕は、SEだった頃から周りの障害に巻き込まれてきたせいか、ある程度落ち着いて、判断して、全体を見渡すようにしています。

社内システムの障害もそうですが、障害対応は経験値稼ぎになるので、スキルアップにはもってこいですね。(本当はないに越したことはないけど)

マイナスな事象の障害ですが、対応することで自身のスキルアップというプラスの捉え方をして、日々成長しています。

平和な運用が一番ですけど!