🌳 고급 인프라
인프라 모니터링과 알림
쉽게 이해하기
자동차 계기판과 비슷해요. 속도, 연료, 엔진 온도를 실시간으로 보여주고, 이상하면 경고등이 켜지죠. 모니터링은 서버의 CPU, 메모리, 디스크를 실시간으로 보고, 문제가 생기기 전에 알려주는 거예요.
핵심 정리
서버가 언제 죽을지 미리 알려주는 감시 시스템
자세히 알아보기
인프라 모니터링은 서버의 상태를 지속적으로 추적해서 문제를 조기에 발견하는 시스템이에요. CPU 사용률, 메모리, 디스크 용량, 네트워크 트래픽, 응답 시간 등을 수집하고 시각화합니다.
기본 메트릭만 보는 게 아니라, 애플리케이션 수준의 메트릭도 중요해요. API 응답 시간, 에러율, 데이터베이스 쿼리 성능 같은 거죠. 이런 데이터를 Grafana 같은 대시보드로 보면, 트래픽 패턴이나 병목 지점을 한눈에 파악할 수 있어요.
알림(Alert) 설정도 필수예요. CPU가 80% 이상 10분간 지속되면 슬랙으로 알림 보내기, 디스크가 90% 차면 이메일 보내기 같은 규칙을 정해둬요. 새벽에 서버가 죽었는데 아침에 출근해서 알면 이미 늦거든요.
실무에서는 Prometheus + Grafana 조합을 많이 쓰고, 클라우드 서비스는 자체 모니터링 도구(AWS CloudWatch, GCP Monitoring)를 제공해요. 로그 분석은 ELK 스택(Elasticsearch + Logstash + Kibana)이나 Loki를 사용합니다. 중요한 건 메트릭을 수집만 하는 게 아니라, 적절한 임계값과 알림을 설정해서 문제를 사전에 방지하는 거예요.