안녕하세요.
담당 매니저 김수민입니다.
기간제(상주) 프로젝트 희망 근무 시작일을
등록해 주시면, 파트너님의 일정에 맞는
적합한 프로젝트를 추천해 드려요.
플러스
데이터 파이프라인 구축
상주
개발
임베디드
업무자동화ㆍRPA
프로젝트 배경
1) 문제점 - 데이터 파편화 & 표준 부재: 부서·시스템별 스크립트 난립, 수집 주기·스키마 불일치로 일관된 적재/검증 체계 없음. - 품질 불일치: 전처리 결과 ↔ 청크/임베딩 ↔ 색인 간 row-count/누락/중복 불일치 빈발, 스키마 드리프트 대비 미흡. - 배포/운영 리스크: 인덱스 교체 시 서비스 중단 가능성, 수동 롤백·재처리로 MTTR 증가. - 관측성 부족: DAG 실패 원인 추적,
프로젝트 성과
초기 적재 TAT 단축
Trino 튜닝·병렬화로 대용량 초기 적재 시간을 -50% 단축시킴
증분 처리 지연 단축
증분 파이프라인 지연을 35% 단축(34→22분)하여 최신 데이터 반영 속도를 높
온보딩 리드타임 단축
소스별 템플릿/변수화를 도입해 신규 데이터 소스 연결 리드타임을 -40% 단축, 문서화 공수는 -35% 감소
누락/중복 적재 감소
워터마크·멱등 키 적용으로 누락/중복 적재 이슈를 -85% 감소시킴
운영 표준화 정착
DAG 템플릿·변수·체크리스트를 제도화해 수동 작업을 -70% 축소시킴
핵심 기능
자동 수집
회사 내 문서·로그·DB 등 여러 소스에서 데이터를 일정 주기로 자동 수집.
진행 단계
기획·요구정의
2025.04.
이해관계자 인터뷰, 데이터 소스 인벤토리(문서/로그/DB), 품질 이슈 수집, 성공지표(KPI) 합의
프로젝트 상세
1) 포트폴리오 소개 서비스 카테고리: 데이터 플랫폼 · AI 검색/분석 인프라 메인 타깃: 사내 검색/분석팀, 데이터사이언티스트/ML엔지니어, 운영자(데이터OPS) 간략 소개: H사의 문서·로그·업무 DB 등 이기종 데이터를 수집·정제·색인하여 OpenSearch 기반 검색/분석과 ML 피처/임베딩 활용이 가능하도록 하는 엔터프라이즈 데이터 파이프라인을 설계·구축. Airflow로 스케줄링/관측성

비슷한 프로젝트를 준비 중이라면?
위시켓 매니저와 상담하세요.

참여 개발사와 미팅 연결

프로젝트 1:1 컨설팅 제공

무료로 프로젝트 등록하기

작업한 파트너 프로필 보기

bi******
개발 · 법인사업자

프로젝트 정보

참여 기간
2025.04. ~ 2025.09.
참여율
참여율이 100%인 프로젝트는 해당 파트너님이 온전히 작업한 결과물입니다.
외부 공동 작업의 경우 기여도에 따라 참여율이 달라지며 역할, 프로젝트 설명을 통해 업무 분야 및 참여 범위를 확인할 수 있습니다.
100%
관련 기술
postgres
gitlab
trino
DBeaver
Airflow
jupyter
OpenSearch
Python