프로젝트 배경
[문제점] 1️⃣ 파편화된 정보 채널: 공연 정보 및 예매 데이터가 다수의 플랫폼(예매처, 기획사 등)에 분산되어 있어, 사용자가 원하는 공연을 찾기 위해 개별 사이트를 일일이 탐색해야 하는 비효율성이 존재합니다. 2️⃣ 비정형 데이터의 한계: 각 예매 사이트마다 데이터 제공 양식(일정, 가격, 장소 표기법 등)이 상이하여, 이를 통합된 형태의 서비스로 가공하고 개인화 추천 로직에 활용하는 데 기술적
프로젝트 성과
데이터 수집 자동화를 통한 운영 리소스 절감
수동으로 진행되던 다수 웹사이트의 공연 및 티켓 정보 수집 작업을 Python 크롤러를 통해 100% 자동화하여, 데이터 갱신에 소요되는 시간과 인력 비용을 획기적으로 감축했습니다.
파편화된 비정형 데이터의 성공적 자산화
여러 예매처에서 수집한 각기 다른 양식의 비정형 데이터를 단일 규격으로 정규화(Normalization)하여, 맞춤형 추천과 상세 필터 검색에 최적화된 통합 DB를 구축했습니다.
유연한 예외 처리로 크롤링 시스템 안정성 확보
타겟 웹사이트의 잦은 DOM 구조 변경이나 예기치 않은 네트워크 오류에도 크롤러가 멈추지 않도록 견고한 방어 로직을 설계하여, 중단 없는 안정적인 데이터 파이프라인을 유지했습니다.
사용자 취향 기반 맞춤형 큐레이션 환경 완성
정제된 통합 데이터를 활용해 사용자의 선호 장르와 지역을 반영한 큐레이션 시스템을 적용, 흩어져 있던 공연 정보를 한 플랫폼에서 빠르고 쉽게 탐색하는 최적의 사용자 경험을 제공했습니다.
핵심 기능
프로젝트 상세
[특징] 1️⃣ 자동화된 데이터 수집 파이프라인 Python 기반의 웹 크롤러를 구축하여 분산된 예매 사이트의 비정형 데이터를 자동으로 수집합니다 수동 데이터 입력 리소스를 100% 제거하고 데이터 갱신의 효율성을 극대화했습니다 2️⃣ 견고한(Robust) 크롤링 아키텍처 타겟 웹사이트의 DOM 구조 변경이나 예외 상황에 유연하게 대응하는 예외 처리 로직을 적용했습니다 네트워크 오류나 페이지 구






