프로젝트 배경
1) 문제점 - 데이터 파편화 & 표준 부재: 부서·시스템별 스크립트 난립, 수집 주기·스키마 불일치로 일관된 적재/검증 체계 없음. - 품질 불일치: 전처리 결과 ↔ 청크/임베딩 ↔ 색인 간 row-count/누락/중복 불일치 빈발, 스키마 드리프트 대비 미흡. - 배포/운영 리스크: 인덱스 교체 시 서비스 중단 가능성, 수동 롤백·재처리로 MTTR 증가. - 관측성 부족: DAG 실패 원인 추적,
프로젝트 성과
초기 적재 TAT 단축
Trino 튜닝·병렬화로 대용량 초기 적재 시간을 -50% 단축시킴
증분 처리 지연 단축
증분 파이프라인 지연을 35% 단축(34→22분)하여 최신 데이터 반영 속도를 높
온보딩 리드타임 단축
소스별 템플릿/변수화를 도입해 신규 데이터 소스 연결 리드타임을 -40% 단축, 문서화 공수는 -35% 감소
누락/중복 적재 감소
워터마크·멱등 키 적용으로 누락/중복 적재 이슈를 -85% 감소시킴
운영 표준화 정착
DAG 템플릿·변수·체크리스트를 제도화해 수동 작업을 -70% 축소시킴
핵심 기능
진행 단계
기획·요구정의
2025.04.
이해관계자 인터뷰, 데이터 소스 인벤토리(문서/로그/DB), 품질 이슈 수집, 성공지표(KPI) 합의
프로젝트 상세
1) 포트폴리오 소개 서비스 카테고리: 데이터 플랫폼 · AI 검색/분석 인프라 메인 타깃: 사내 검색/분석팀, 데이터사이언티스트/ML엔지니어, 운영자(데이터OPS) 간략 소개: H사의 문서·로그·업무 DB 등 이기종 데이터를 수집·정제·색인하여 OpenSearch 기반 검색/분석과 ML 피처/임베딩 활용이 가능하도록 하는 엔터프라이즈 데이터 파이프라인을 설계·구축. Airflow로 스케줄링/관측성






