프로젝트 배경
1) 문제점
- 고객사 서비스는 수천 대에 이르는 서버로 구성되어 있으며, 이들 서버에서 발생하는 방대한 양의 장애와 이슈를 통합적으로 관리하는 데 어려움이 있습니다.
- 기존 모니터링 시스템은 제한적인 뷰, 느린 응답 속도, 사용자 친화적이지 않은 메뉴 체계로 인해 효과적인 시스템 운영에 제약이 있었습니다.
2) 프로젝트 목표
- 기존 모니터링 시스템에서 수집되는 데이터를 직관적인 통합 뷰로 제공하고, 효율적인 통합 이슈 관리 시스템을 구축하는 것을 목표로 설정
- 담당자에게 업무 시작 전 주요 성능 지표와 이슈 사항을 이메일로 자동 전송하여 선제적인 대응이 가능하도록 지원
3) 주안점
- 방대한 양의 데이터를 효율적으로 배치 처리하고 분석할 수 있는 아키텍처 적용
- 시계열 데이터의 빠른 응답 성능을 보장하기 위해 고성능 비동기 아키텍처를 도입하여 시스템의 전반적인 반응 속도 향상
- 고객사 서비스는 수천 대에 이르는 서버로 구성되어 있으며, 이들 서버에서 발생하는 방대한 양의 장애와 이슈를 통합적으로 관리하는 데 어려움이 있습니다.
- 기존 모니터링 시스템은 제한적인 뷰, 느린 응답 속도, 사용자 친화적이지 않은 메뉴 체계로 인해 효과적인 시스템 운영에 제약이 있었습니다.
2) 프로젝트 목표
- 기존 모니터링 시스템에서 수집되는 데이터를 직관적인 통합 뷰로 제공하고, 효율적인 통합 이슈 관리 시스템을 구축하는 것을 목표로 설정
- 담당자에게 업무 시작 전 주요 성능 지표와 이슈 사항을 이메일로 자동 전송하여 선제적인 대응이 가능하도록 지원
3) 주안점
- 방대한 양의 데이터를 효율적으로 배치 처리하고 분석할 수 있는 아키텍처 적용
- 시계열 데이터의 빠른 응답 성능을 보장하기 위해 고성능 비동기 아키텍처를 도입하여 시스템의 전반적인 반응 속도 향상
프로젝트 성과
1. 시스템 안정성 및 운영 효율성 향상
수천 대 서버에서 발생하는 방대한 장애와 이슈 데이터를 통합 관리하여 시스템 전반의 가시성을 확보하고, 이를 통해 장애 발생 시 신속한 대응 및 운영 효율성을 개선했습니다.
2. 사용자 만족도 및 업무 생산성 향상
직관적인 통합 모니터링 뷰와 사용자 친화적인 메뉴 체계를 제공하여 기존 시스템의 불편함을 해소하고, 담당자의 업무 편의성과 생산성을 크게 향상 시켰습니다.
3. 선제적 위험 관리 및 예측 기반 운영 체계 확립
주요 성능 지표 및 이슈 사항을 사전 알림으로써 잠재적 위험에 대한 선제적인 대응을 가능하게 하고, 데이터 기반의 예측 및 예방 운영 체계를 구축하는 데 기여했습니다.
핵심 기능

실시간 통합 모니터링 및 대시보드
수천 대 서버에서 발생하는 다양한 지표(CPU, 메모리, 디스크, 네트워크 등)와 로그를 실시간으로 수집, 분석하여 직관적인 통합 대시보드를 통해 시각화

지능형 이슈 감지와 통합 관리
시계열 분석을 통한 이슈 생성과 서버 운영자, DB 관리자 등 각 역할별 담당자가 이슈 내용을 손쉽게 공유하고, 조치 사항을 입력하며, 진행 상태를 실시간으로 추적할 수 있는 통합 이슈 관리 기능을 제공
진행 단계
기획 및 요구사항 정의
2024.01.
- 기능 범위 확정
- 연동 관리 지표 확정
- 화면 설계 진행
- 적용 기술과 SW 스택 확정
- 연동 관리 지표 확정
- 화면 설계 진행
- 적용 기술과 SW 스택 확정
주요 기능 개발
2024.02.
- 데이터 스키마 정의
- 주요 기능 개발
- 테스트 서버로의 주기적인 배포와 고객 리뷰 수행
- 주요 기능 개발
- 테스트 서버로의 주기적인 배포와 고객 리뷰 수행
통합 테스트 및 운영 서버 이관
2024.04.
- SSO 연동 및 고객사 운영 환경 적용
- 통합 테스트 수행
- 산출물 작성
- 운영 서버 이관
- 통합 테스트 수행
- 산출물 작성
- 운영 서버 이관
프로젝트 상세
1) 포트폴리오 소개
- 고객사가 운영중인 전체 서비스의 서버 성능 현황과 이슈 사항을 통합 관리하기 위한 시스템
2) 작업 범위
- 연동 관리 지표 정의, Back-end 개발, Front-end 개발, 관리자 페이지 개발, SSO 통합 로그인 개발
3) 주요 업무
- EMS 시스템으로 부터 서버 성능 데이터 수신(ETL 도구)하여 시계열 저장소(Cassandra) 저장
- 시계열 데이터 롤업 수행
- 각 성능 지표 별 통계 분석 후 이상 값에 대한 이슈 발행
- 매일 아침 서비스 담당자에게 서버 성능 요약 정보와 이슈 정보 메일 발송
4) 주안점
- 시간당 수십만건의 서버 성능 데이터의 안정적인 시계열 저장소 저장 및 롤업 처리
- 매일 아침 서비스 담당자에게 전송하는 수 천건의 시스템 성능 요약 메일을 안정적으로 생성과 전송
- 수 천대 서버의 임계값 관리의 복잡함을 해소하기 위해 상속을 지원하는 계층형 관리 시스템을 제안하여 적용
- 고객사의 전사 디자인 가이드를 적용하여 UI/UX 개발
- Hibernate 및 추상화 계층을 통해 고객사의 표준 SW 스택(LENA 웹서버, MS SQL)을 무리없이 적용
- 운영 시작 후 현재까지 약 1년간 단 한번의 장애 발생 없이 안정적으로 운영 중
- 고객사가 운영중인 전체 서비스의 서버 성능 현황과 이슈 사항을 통합 관리하기 위한 시스템
2) 작업 범위
- 연동 관리 지표 정의, Back-end 개발, Front-end 개발, 관리자 페이지 개발, SSO 통합 로그인 개발
3) 주요 업무
- EMS 시스템으로 부터 서버 성능 데이터 수신(ETL 도구)하여 시계열 저장소(Cassandra) 저장
- 시계열 데이터 롤업 수행
- 각 성능 지표 별 통계 분석 후 이상 값에 대한 이슈 발행
- 매일 아침 서비스 담당자에게 서버 성능 요약 정보와 이슈 정보 메일 발송
4) 주안점
- 시간당 수십만건의 서버 성능 데이터의 안정적인 시계열 저장소 저장 및 롤업 처리
- 매일 아침 서비스 담당자에게 전송하는 수 천건의 시스템 성능 요약 메일을 안정적으로 생성과 전송
- 수 천대 서버의 임계값 관리의 복잡함을 해소하기 위해 상속을 지원하는 계층형 관리 시스템을 제안하여 적용
- 고객사의 전사 디자인 가이드를 적용하여 UI/UX 개발
- Hibernate 및 추상화 계층을 통해 고객사의 표준 SW 스택(LENA 웹서버, MS SQL)을 무리없이 적용
- 운영 시작 후 현재까지 약 1년간 단 한번의 장애 발생 없이 안정적으로 운영 중

서버 성능 조회

서비스 성능 조회



