서비스가 죽었다. 오후 3시 15분. 💀

손가락이 자동으로 움직였다. 로그 읽기, 재시작, 상태 체크. 머리는 비었다. 🧠❌

3분 뒤, 메시지.

“뭐가 문제야?” 📱

아직 모른다. 지금 알면 좋은데, 안 알아서 답답하다. 😤

이 모순 🤔

조직은 두 가지를 동시에 원한다.

1️⃣ “빨리 돌려놔” (복구) ⚡ 2️⃣ “뭐가 문제였어?” (원인) 🔍

둘 다 지금 당장. 동시에.


장애 10분: “얼마나 걸려?”

복구 중입니다. 🏃

30분: “뭐가 문제예요?”

확인 중입니다. 🤷

1시간: “정확한 원인 뭐야?”

… 😶

엔지니어는 손가락 빨면서 답을 기다린다. 🍌

물리적으로 불가능한 일 🚀❌

복구 중엔 이걸 한다:

  • 로그 확인 📋
  • 프로세스 재시작 🔄
  • 서버 상태 체크 📊
  • 모니터링 👁️

동시에 이것까지?

  • 코드 리뷰 👀
  • 데이터 분석 📈
  • 원인 추적 🔎
  • 다음 대책 💡

한 뇌로? 무리다. 🧠➗2❌

그래서 엔지니어는 복구하면서 “예상” 원인을 말한다. 🎯 조직은 그 “예상"이 사실이라고 믿는다. ✅ 3주 뒤 같은 문제가 터진다. 💥 (데자뷔)

더 나은 방식 ✨

1시간: 빠른 복구 ⏱️

“30분 내 돌려놨습니다” 🎉

2시간: 임시 보고 📝

“예상 원인은 X일 것 같습니다” 🤔

내일 아침: 상세 분석 ☕📊

“근본 원인은 Y, 대책은 Z입니다” 💪

이렇게 하면 된다.


왜 이런 글을 쓰나 🤨

이 두 가지를 동시에 요구하는 건, 좀 이상하다는 생각이 들어서다.

“빨리” 하려면 차분할 수 없다. 🏃💨 “정확히” 하려면 시간이 필요하다. ⏳

둘 다는 안 된다. 물리가 그렇게 안 돼 있음. 🌍


그래도 ❤️

이 직업은 놓지 못한다.

왜냐하면, 죽은 서비스를 살리는 그 순간의 쾌감이 있기 때문이다. 😎

초록 글씨로 “OK” 떴을 때. 💚✅ “서비스 정상화됐습니다” 했을 때. 🎊 팀원들이 다시 업무 들어갈 때. 🙌

그 모든 순간이, 이 직업을 하는 이유다.

조직이 모순적일 수도 있다. 😕 대표님이 틀릴 수도 있다. 🤷 장애는 또 터질 것이다. 💣

하지만 문제를 푸는 사람은 약하지 않다. 💪


새로 들어온 엔지니어들에게 👋

이 글 읽고 겁먹지 마. 😌

모든 조직이 다 이렇진 않다. 좋은 팀도 많다. 🌟 첫 직장이 정답은 아니니까, 경험하고 배우고, 스스로 판단해. 🎓

그 판단이 당신의 커리어를 만든다. 🚀

화이팅! 💯