bitstep · 위시켓(Wishket)

프로젝트 배경

1) 문제점 - 데이터 파편화 & 표준 부재: 부서·시스템별 스크립트 난립, 수집 주기·스키마 불일치로 일관된 적재/검증 체계 없음. - 품질 불일치: 전처리 결과 ↔ 청크/임베딩 ↔ 색인 간 row-count/누락/중복 불일치 빈발, 스키마 드리프트 대비 미흡. - 배포/운영 리스크: 인덱스 교체 시 서비스 중단 가능성, 수동 롤백·재처리로 MTTR 증가. - 관측성 부족: DAG 실패 원인 추적,

로그인하고 프로젝트 배경 확인하기

프로젝트 성과

초기 적재 TAT 단축

Trino 튜닝·병렬화로 대용량 초기 적재 시간을 -50% 단축시킴

증분 처리 지연 단축

증분 파이프라인 지연을 35% 단축(34→22분)하여 최신 데이터 반영 속도를 높

온보딩 리드타임 단축

소스별 템플릿/변수화를 도입해 신규 데이터 소스 연결 리드타임을 -40% 단축, 문서화 공수는 -35% 감소

누락/중복 적재 감소

워터마크·멱등 키 적용으로 누락/중복 적재 이슈를 -85% 감소시킴

운영 표준화 정착

DAG 템플릿·변수·체크리스트를 제도화해 수동 작업을 -70% 축소시킴

핵심 기능

로그인하고 핵심 기능 4개 더 확인하기

자동 수집

회사 내 문서·로그·DB 등 여러 소스에서 데이터를 일정 주기로 자동 수집.

진행 단계

기획·요구정의

2025.04.

이해관계자 인터뷰, 데이터 소스 인벤토리(문서/로그/DB), 품질 이슈 수집, 성공지표(KPI) 합의

로그인하고 진행 단계 확인하기

프로젝트 상세

1) 포트폴리오 소개 서비스 카테고리: 데이터 플랫폼 · AI 검색/분석 인프라 메인 타깃: 사내 검색/분석팀, 데이터사이언티스트/ML엔지니어, 운영자(데이터OPS) 간략 소개: H사의 문서·로그·업무 DB 등 이기종 데이터를 수집·정제·색인하여 OpenSearch 기반 검색/분석과 ML 피처/임베딩 활용이 가능하도록 하는 엔터프라이즈 데이터 파이프라인을 설계·구축. Airflow로 스케줄링/관측성

로그인하고 프로젝트 상세 확인하기