인프라/모니터링 35일 2025

Infraguard - 서버 인프라 모니터링

다수의 서버·서비스 상태를 단일 대시보드에서 실시간 모니터링하고, 장애 발생 시 Slack/카카오톡으로 즉시 알림을 보내는 인프라 관제 플랫폼.

유사 프로젝트 문의

35일

개발 기간

45초

장애 감지

90%

비용 절감

8대+

모니터링 서버

해결 과제

클라이언트는 AWS EC2 인스턴스 8대, RDS 2개, 외부 API 엔드포인트 15개를 운영하고 있었지만, 모니터링은 각각 다른 도구를 열어봐야 했습니다.

장애 감지가 늦어 서비스 다운 평균 감지 시간이 23분이었고, 특정 야간 장애는 다음날 출근 후에야 파악되는 상황이 반복됐습니다.

기존 상용 모니터링 SaaS는 월 120만원 비용이 부담스러웠고, 사내 커스텀 알람 규칙 적용도 어려웠습니다.

솔루션

Python FastAPI 기반 경량 모니터링 에이전트를 각 서버에 배포하고, 중앙 대시보드에서 메트릭을 수집·시각화하는 구조로 설계했습니다.

Prometheus로 메트릭을 수집하고 Grafana로 시각화했습니다. 알람 규칙은 YAML 파일로 정의하여 운영팀이 코드 없이 조건을 수정할 수 있게 했습니다.

Slack, 카카오톡 메시지를 동시에 발송하고, 장애 유형(CPU, 메모리, 디스크, HTTP 응답)별 담당자를 자동으로 라우팅합니다.

성과

장애 평균 감지 시간 23분→45초로 96% 단축
월 모니터링 비용 120만원→12만원 (90% 절감)
CPU, 메모리, 디스크, 네트워크, HTTP 응답 5종 메트릭 수집
알람 규칙 YAML 정의로 운영팀 자체 관리 가능
90일 메트릭 이력 보관 및 이상 패턴 분석 기능

개발 마일스톤

2025.10.07

모니터링 아키텍처 설계

수집 에이전트 vs 풀(Pull) 방식 비교 분석. Prometheus 풀 방식으로 확정. 수집 메트릭 목록 및 알람 조건 정의.

수집 방식 결정으로 에이전트 경량화 가능

2025.10.14

에이전트 & 수집 파이프라인 구현

Python psutil 기반 경량 에이전트 개발. Prometheus 익스포터 구현. 8대 서버에 Docker로 자동 배포.

메트릭 수집 주기 15초, CPU 사용률 2% 이하

2025.10.24

Grafana 대시보드 & 알람 구성

서버별, 서비스별 Grafana 대시보드 10개 구성. Alertmanager로 Slack·카카오톡 동시 알림 설정. 담당자별 라우팅 규칙 적용.

단일 화면에서 전체 인프라 상태 파악 가능

2025.11.04

HTTP 엔드포인트 감시 & 이력 분석

외부 API 15개 엔드포인트 응답시간·상태코드 감시 추가. 90일 이력 기반 이상 패턴 감지 로직 구현.

서비스 장애 사전 예방율 60% 향상

2025.11.11

운영 배포 & 검증

전체 시스템 운영 서버 배포. 장애 시뮬레이션 테스트로 알람 정확도 검증. 감지 시간 45초 달성 확인.

감지 시간 23분→45초, 모니터링 비용 90% 절감

프로젝트 정보

클라이언트: IT 서비스 운영사
개발 기간: 35일
완료 연도: 2025

사용 기술

Python FastAPI Prometheus Grafana Docker Slack API Redis PostgreSQL Nginx

핵심 성과

35일 완성 · 장애 감지 시간 23분→45초로 단축

비슷한 프로젝트가
필요하신가요?

전문 컨설턴트와 상담해보세요.

무료 상담

이전 프로젝트 CORE Project VSCode Suite

목록으로

다음 프로젝트 Menuro – 클라우드 전자메뉴판 키오스크