おいイルカ!
障害が起きてるみたいじゃねーか? どうなってる!?
顧客サポートからも怒りの電話が山ほど来てるぞ!
あー、その件なら、午前中にSlackで投げておきましたよ。
チャンネルの #prod-alerts に「エラー多発」って。
既読も何件かついてましたし、誰かが対応してるかと思って……。
Slackに“投げた”だけだと?
電話は? 現場確認は? 責任者へのエスカレーションは!?
えっと……Slackで見た人が動いてくれるんじゃないかと……。
最近はみんなリモートですし。
アホか! リモートだろうが関係ねぇ!
お前の“誰かが動く”は誰も動かねぇってことだ!
今この瞬間、ユーザーは決済できずに立ち往生してんだぞ。
Slackの未読バッジで売上は戻らねぇんだ!
で、でも……Slackで。。。
うるせえ!
状況報告だまず走れ!
(小声)す、すみません……。
ええと、一度整理しますね。
今朝9:05、決済APIが500を返しはじめ、ユーザーのチェックアウトが失敗し続けていたんです。
イルカちゃんは9:12に #prod-alerts へ「エラー多発」と投稿。
ただ、担当SREは夜勤明けで通知を見落としてしまったみたいで、
誰も即座に動けなかった……。
そして12:00、顧客からの怒りの電話がサポートに集中し、ピラニアさんが異変に気がついた。
すぐに現場の状況を電話でヒアリング、続けてアプリ担当→API担当→DB担当へと直接コール。
そこからは一気に進みました。
12:18、SREがダッシュボードを確認し、br/>直前のデプロイでリトライ設定が無効化されていたことを特定。
12:31にロールバック、12:45には安定化を確認し、13:00に復旧宣言。
サポートチームへ一次報、br/>全体へ二次報を共有しました。
……Slackに書いてから3時間も経ってたんですか……?
そう。もし午前中の時点で電話していれば、影響は1時間以内で収束できたはず。
お客様を余計に2時間も困らせてしまったんだよ。
ピラニアさん、本当にすみません。
Slackに書けば届くと、勝手に安心してました……。
その間、お客様が2時間以上も不便を強いられていたんですよね。
そういうことだ。正直に言う。
これはお前の対応のミスだ。
アラート対応がしっかりできていれば、顧客を2時間も待たせる必要はなかった。
Slackは便利だが、アクションが伴わないと意味がない
……はい。次は絶対対応できるように電話や直接フロアも走ります。。。
よし。それでええ。覚えとけ、緊急対応の基本や。
一つ、重大度(Severity)を即判定。ユーザー影響・売上影響・代替手段の有無でS1/S2を決めろ。
二つ、チャンネル選択。S1は電話→オンコール→ブリッジ(会議)を最短で。Slackは補助、流れるからな。
三つ、コールツリー。誰に、どの順で、何を聞くか決めとけ。アプリ→API→DB→インフラの順や。
四つ、状況報告(SITREP)。今・どこで・何が・誰に・どのくらい・仮説・次の一手。短く回せ。
五つ、記録と再発防止。落ち着いたらチケット化、原因・対策・オーナー・期限。二度とユーザーを困らせないためにな
……はい。
いいかイルカ
「全てはユーザーの為に」だ
はい



コメント