프로젝트 배경
1) 문제점
- 수동 데이터 관리의 비효율성: OTA(Agoda, Expedia, Hotelbeds, FITRuums 등) 데이터 동기화를 현지 운영팀 인력(50명 이상)이 직접 API를 호출하여 건별로 확인하는 방식으로 진행해 리소스 낭비가 심각
- 느린 데이터 갱신 속도: 방대한 글로벌 호텔 데이터를 순차적으로 처리함에 있어 API Rate Limit 등의 제약으로 인해 전체 데이터 갱신에 약 23일(Agoda 기준)이 소요됨
- 데이터 정합성 문제: 여러 OTA 벤더의 상이한 데이터 포맷과 구조로 인해 데이터 중복 및 불일치가 발생하여 예약 오류 가능성 상존. 여기에 더불어 기존 시스템에서는 트랜잭션 개념을 활용하지 않고 있었기에 중간 오류에 대한 내성이 전혀 없음
2) 프로젝트 목표
- 데이터 파이프라인 완전 자동화: Airflow 기반의 ETL 시스템을 구축하여 OTA 데이터 수집부터 적재까지 전 과정을 무인 자동화하고 운영 비용 절감
- 처리 속도 획기적 단축: 병렬 분할 처리(Parallel Processing) 아키텍처를 도입하여 데이터 갱신 주기를 수일(Weeks) 단위에서 수일(Days) 단위로 단축
- 안정적인 서비스 운영: 장애 발생 시에도 데이터 유실 없이 자동 복구(Failover)되는 견고한 파이프라인과 실시간 모니터링 체계 구축
3) 주안점
- 병렬 분할 처리 기법 적용: 대용량 데이터를 최적의 크기로 분할하여 동시에 처리함으로써 외부 API 제약을 극복하고 수집 속도를 5배 이상 향상
- 장애 내성(Fault Tolerance) 확보: 네트워크 불안정이나 서버 셧다운 시에도 중단된 지점(Cursor)부터 자동으로 재개되는 안정적인 재처리 로직 구현
- 이기종 데이터 표준화: 서로 다른 4대 글로벌 OTA의 데이터 모델을 분석하여 몽키트래블만의 표준 스키마로 통합 및 정규화
- 수동 데이터 관리의 비효율성: OTA(Agoda, Expedia, Hotelbeds, FITRuums 등) 데이터 동기화를 현지 운영팀 인력(50명 이상)이 직접 API를 호출하여 건별로 확인하는 방식으로 진행해 리소스 낭비가 심각
- 느린 데이터 갱신 속도: 방대한 글로벌 호텔 데이터를 순차적으로 처리함에 있어 API Rate Limit 등의 제약으로 인해 전체 데이터 갱신에 약 23일(Agoda 기준)이 소요됨
- 데이터 정합성 문제: 여러 OTA 벤더의 상이한 데이터 포맷과 구조로 인해 데이터 중복 및 불일치가 발생하여 예약 오류 가능성 상존. 여기에 더불어 기존 시스템에서는 트랜잭션 개념을 활용하지 않고 있었기에 중간 오류에 대한 내성이 전혀 없음
2) 프로젝트 목표
- 데이터 파이프라인 완전 자동화: Airflow 기반의 ETL 시스템을 구축하여 OTA 데이터 수집부터 적재까지 전 과정을 무인 자동화하고 운영 비용 절감
- 처리 속도 획기적 단축: 병렬 분할 처리(Parallel Processing) 아키텍처를 도입하여 데이터 갱신 주기를 수일(Weeks) 단위에서 수일(Days) 단위로 단축
- 안정적인 서비스 운영: 장애 발생 시에도 데이터 유실 없이 자동 복구(Failover)되는 견고한 파이프라인과 실시간 모니터링 체계 구축
3) 주안점
- 병렬 분할 처리 기법 적용: 대용량 데이터를 최적의 크기로 분할하여 동시에 처리함으로써 외부 API 제약을 극복하고 수집 속도를 5배 이상 향상
- 장애 내성(Fault Tolerance) 확보: 네트워크 불안정이나 서버 셧다운 시에도 중단된 지점(Cursor)부터 자동으로 재개되는 안정적인 재처리 로직 구현
- 이기종 데이터 표준화: 서로 다른 4대 글로벌 OTA의 데이터 모델을 분석하여 몽키트래블만의 표준 스키마로 통합 및 정규화
프로젝트 성과
글로벌 OTA 호텔 데이터 ETL 및 정합성 확보
Agoda, Expedia, Hotelbeds, FITRuums에서 호텔 데이터를 수집/가공하여 MariaDB에 적재하고, Failover 메커니즘을 설계해 데이터 유실 없는 안정적인 파이프라인을 구축했습니다.
OTA 데이터 파이프라인 성능 83% 개선 (평균 23일 → 3.8일)
Agoda 배치 실행 전략을 Airflow 병렬 분할 처리 방식으로 재설계하고, Rate Limit 백오프 전략을 최적화하여 데이터 적재 속도를 획기적으로 단축했습니다.
Admin 백오피스 UX 개선 및 데이터 관리 자동화
기존 수작업 위주의 글로벌 호텔 데이터 관리를 정규화된 모델 기반의 어드민 시스템으로 전환하고, 변경 사항 자동 감지 및 시각화 기능을 개발하여 운영 인력의 업무 효율을 극대화했습니다.
핵심 기능



Airflow 기반 글로벌 OTA 데이터 실시간 동기화 자동화 배치
Agoda, Expedia, Hotelbeds 등 이기종 API의 호텔 데이터를 일괄 수집하는 Airflow DAG. 기존 수작업에 의존하던 데이터 갱신 프로세스를 100% 자동화
프로젝트 상세
1) 포트폴리오 소개
- 서비스 카테고리: 글로벌 여행 예약 플랫폼 (OTA - Online Travel Agency)
- 메인 타깃: 동남아시아 지역 여행객 및 현지 호텔 운영팀 (+ 글로벌)
- 소개: Agoda, Expedia, Hotelbeds, FITRuums 등 글로벌 OTA의 방대한 호텔 데이터를 수집/가공하여 제공하는 여행 플랫폼으로, 기존의 수작업 운영 방식을 Apache Airflow 기반의 자동화된 대용량 데이터 파이프라인으로 설계 및 개발하여 운영 효율성을 극대화한 프로젝트
2) 작업 범위
- 프론트오피스 풀스택 개발: 생생 리뷰, 상품 상세 등
- 백오피스 풀스택 개발: 호텔/객실 데이터 관리 및 OTA 연동 현황 모니터링을 위한 백오피스 시스템 리뉴얼
- 데이터 파이프라인(ETL) 구축: Airflow 기반 전 세계 대상 대규모 호텔 데이터 실시간 갱신 ETL 프로세스 자동화 시스템 개발
3) 주요 업무
- 병렬 ETL 파이프라인 구축: Airflow와 PHP Worker를 연동하여 500만 건 이상의 호텔 데이터를 병렬로 분할 처리하는 고성능 배치 시스템 개발
- 통합 데이터 모델링: 각기 다른 포맷을 가진 4대 OTA(Agoda, Expedia, Hotelbeds, FITRuums) 데이터를 단일 표준 스키마로 통합 및 정규화
- 운영 피드백 시스템: 데이터 변경 사항(객실, 어메니티 등)을 실시간으로 감지하여 백오피스에서 해당 호텔 업데이트 상태 표시 및 현지 운영팀에게 텔레그램 알림 제공
4) 주안점
- 데이터 처리 속도 혁신: 기존 평균 23일이 소요되던 Agoda 데이터 갱신 배치를 순차 처리에서 병렬 분할 처리 방식으로 변경하여 3.8일(약 83% 단축)로 성능을 획기적으로 개선
- 운영 자동화 및 비용 절감: 수십 명의 인력이 수작업으로 진행하던 데이터 갱신 업무를 100% 자동화하여 휴먼 에러를 제거하고 운영 리소스 절감
- 장애 내성(Fault Tolerance): 외부 API 장애나 서버 다운 시에도 중단된 지점부터 자동으로 재개(Resume)되는 Failover 메커니즘을 파이프라인에 적용하여 데이터 신뢰성 확보
- 서비스 카테고리: 글로벌 여행 예약 플랫폼 (OTA - Online Travel Agency)
- 메인 타깃: 동남아시아 지역 여행객 및 현지 호텔 운영팀 (+ 글로벌)
- 소개: Agoda, Expedia, Hotelbeds, FITRuums 등 글로벌 OTA의 방대한 호텔 데이터를 수집/가공하여 제공하는 여행 플랫폼으로, 기존의 수작업 운영 방식을 Apache Airflow 기반의 자동화된 대용량 데이터 파이프라인으로 설계 및 개발하여 운영 효율성을 극대화한 프로젝트
2) 작업 범위
- 프론트오피스 풀스택 개발: 생생 리뷰, 상품 상세 등
- 백오피스 풀스택 개발: 호텔/객실 데이터 관리 및 OTA 연동 현황 모니터링을 위한 백오피스 시스템 리뉴얼
- 데이터 파이프라인(ETL) 구축: Airflow 기반 전 세계 대상 대규모 호텔 데이터 실시간 갱신 ETL 프로세스 자동화 시스템 개발
3) 주요 업무
- 병렬 ETL 파이프라인 구축: Airflow와 PHP Worker를 연동하여 500만 건 이상의 호텔 데이터를 병렬로 분할 처리하는 고성능 배치 시스템 개발
- 통합 데이터 모델링: 각기 다른 포맷을 가진 4대 OTA(Agoda, Expedia, Hotelbeds, FITRuums) 데이터를 단일 표준 스키마로 통합 및 정규화
- 운영 피드백 시스템: 데이터 변경 사항(객실, 어메니티 등)을 실시간으로 감지하여 백오피스에서 해당 호텔 업데이트 상태 표시 및 현지 운영팀에게 텔레그램 알림 제공
4) 주안점
- 데이터 처리 속도 혁신: 기존 평균 23일이 소요되던 Agoda 데이터 갱신 배치를 순차 처리에서 병렬 분할 처리 방식으로 변경하여 3.8일(약 83% 단축)로 성능을 획기적으로 개선
- 운영 자동화 및 비용 절감: 수십 명의 인력이 수작업으로 진행하던 데이터 갱신 업무를 100% 자동화하여 휴먼 에러를 제거하고 운영 리소스 절감
- 장애 내성(Fault Tolerance): 외부 API 장애나 서버 다운 시에도 중단된 지점부터 자동으로 재개(Resume)되는 Failover 메커니즘을 파이프라인에 적용하여 데이터 신뢰성 확보

대시보드

상품 상세 - 1

상품 상세 - 2

상품 상세 - 3

Apache Airflow DAG 그래프 中 일부

어드민 페이지

개발 중 작성한 문서 - 1

개발 중 작성한 문서 - 2

개발 중 작성한 문서 - 3

개발 중 작성한 문서 - 4


