Day 71 · 3/5
🌳 고급 인프라

업타임(Uptime)이 뭔가요?

쉽게 이해하기

편의점이 24시간 영업한다고 하는데, 실제로 1년 중 며칠은 문을 닫았다면 그게 바로 업타임이 100%가 아닌 거예요. 서비스도 마찬가지로 1년 중 몇 퍼센트 동안 정상적으로 돌아갔는지를 나타내는 게 업타임이에요.

핵심 정리

서비스가 정상적으로 작동한 시간의 비율로 안정성을 나타내는 지표

자세히 알아보기

업타임은 서비스가 정상적으로 작동한 시간의 비율이에요. 보통 퍼센트로 표시하는데, 99.9%(Three Nines)는 1년에 약 8.76시간 정도 서비스가 중단될 수 있다는 뜻이고, 99.99%(Four Nines)는 약 52분, 99.999%(Five Nines)는 약 5분만 중단 가능하다는 의미예요. 실무에서는 SLA(Service Level Agreement)라는 계약에 업타임 목표가 명시되어 있어요. 예를 들어 AWS는 EC2에 대해 99.99% 업타임을 보장하고, 이를 지키지 못하면 요금을 환불해줘요. 스타트업도 고객사와 계약할 때 99.5% 이상 업타임을 약속하는 식으로 신뢰를 쌓아요. 업타임을 높이려면 단일 장애점(Single Point of Failure)을 없애야 해요. 서버 하나에만 의존하면 그 서버가 죽으면 서비스 전체가 멈추지만, 로드밸런서로 여러 서버에 트래픽을 분산하고, 데이터베이스도 복제본(replica)을 두면 한 곳이 죽어도 서비스가 계속 돌아가요. Pingdom, UptimeRobot 같은 모니터링 서비스는 1분마다 서비스 상태를 체크해서 업타임을 측정하고, 다운되면 즉시 알림을 보내요. 실제로 서비스를 운영하면 100% 업타임은 불가능하지만, 모니터링과 자동화된 복구 시스템으로 99.9% 이상을 유지하는 게 목표예요.