안녕하세요.
담당 매니저 김수민입니다.
기간제(상주) 프로젝트 희망 근무 시작일을
등록해 주시면, 파트너님의 일정에 맞는
적합한 프로젝트를 추천해 드려요.
플러스
[구현 데모] 법령·판례 수집 파이프라인 제어 센터 — 수집 파이프라인 실시간 모니터링
개발 · 디자인 · 기획
SaaSㆍ솔루션, 관제ㆍ모니터링, 업무자동화ㆍRPA
프로젝트 배경
1) 예상 리스크 및 대응 계획 - 법제처·판례 포털별로 HTML 구조와 인코딩 방식이 상이하여 Spider 셀렉터의 범용 추상화 설계가 필요 - PDF 첨부파일의 표·각주·이미지 영역 경계를 pdfplumber로 정확히 구분하는 비정형 파싱 로직 설계 필요 - 장-조-항-호 계층 간 상호참조 링크를 대규모 법령 데이터에 배치 매핑할 때의 참조 무결성 관리 방안 필요 - 크롤링 과정 중 대상 서버 차단
프로젝트 성과
동적 Spider 플러그인 아키텍처 구현
Scrapy Spider 설정을 DB에 저장하고 런타임 동적 인스턴스화로 재배포 없이 신규 사이트 추가 구조 설계
법령 계층 트리 WITH RECURSIVE 쿼리 설계
장·절·조·항·호 5단계 셀프 참조 테이블을 PostgreSQL WITH RECURSIVE CTE로 단일 쿼리 조회하는 구조 구현
APScheduler 영속 JobStore 연동 설계
SQLAlchemyJobStore로 스케줄을 PostgreSQL에 영속화하여 서버 재시작 후 자동 복구되는 스케줄러 아키텍처 구축
SSE 기반 파이프라인 실시간 관찰 구조
FastAPI SSE 스트림으로 크롤러 상태 변화를 React에 푸시, React Query polling과 조합해 2초 이내 갱신 구조 설계
핵심 기능
수집 파이프라인 실시간 모니터링
크롤러 실행 현황·수집량·오류율을 실시간으로 시각화하여 운영자가 파이프라인 상태를 한눈에 파악할 수 있습니다
진행 단계
크롤링 대상 분석 및 DB 스키마 설계
2026.06
법제처·종합법률정보 구조 분석, 계층 테이블(law_articles·article_refs·spider_configs·job_executions) ERD 설계
프로젝트 상세
1) 포트폴리오 소개 법제처·종합법률정보 등 정부 법령 포털과 판례 DB에서 정형·비정형 데이터를 자동 수집하고 계층 구조(장-조-항-호)로 적재하는 Python 크롤링 파이프라인과 실시간 모니터링 제어 대시보드를 설계·구현합니다. FastAPI 기반 REST API와 React 관리 UI를 함께 제공하여 수집 상태·실패 재시도·스케줄 관리를 하나의 인터페이스에서 처리할 수 있는 MVP 데모를 제안합니다.

비슷한 프로젝트를 준비 중이라면?
위시켓 매니저와 상담하세요.

참여 개발사와 미팅 연결

프로젝트 1:1 컨설팅 제공

무료로 프로젝트 등록하기

작업한 파트너 프로필 보기

fi******
개발 · 법인사업자

프로젝트 정보

참여 기간
2026.06. ~ 2026.06.
참여율
참여율이 100%인 프로젝트는 해당 파트너님이 온전히 작업한 결과물입니다.
외부 공동 작업의 경우 기여도에 따라 참여율이 달라지며 역할, 프로젝트 설명을 통해 업무 분야 및 참여 범위를 확인할 수 있습니다.
100%
역할
풀스택 개발 (기여도 100%)
관련 기술
scrapy
PostgreSQL
fastapi
beautifulsoup
pdfplumber
Python