안녕하세요.
담당 매니저 김수민입니다.
기간제(상주) 프로젝트 희망 근무 시작일을
등록해 주시면, 파트너님의 일정에 맞는
적합한 프로젝트를 추천해 드려요.
플러스
법령·판례 데이터 수집·구조화 엔진 파일럿 구축
개발
업무자동화ㆍRPA, 스크래핑ㆍAPI
프로젝트 배경
법령 수집·조문 노드화·상호참조 그래프 등 법령 데이터 엔진의 핵심 흐름을 먼저 파악하고, 민법 3,615개 조문 구조화부터 HWPX·PDF 비정형 파일 파싱까지 시연 가능한 결과물을 사전 구현했습니다. 법령 자동 수집, 계층형 조문 트리 탐색, 판례 전문검색, 비정형 문서 파싱 등 실제 운영 시나리오 4가지를 사전에 검증해둔 덕분에, 착수 즉시 현장에서 바로 쓸 수 있는 수집엔진을 안정적으로 납품할 수 있습
프로젝트 성과
민법 3,615개 조문 노드 MariaDB 적재 완료
law.go.kr에서 편-장-절-관-조-항-호-목 6계층을 재귀 트리로 파싱해 MariaDB에 전수 적재. 부칙 74개, 별표 섹션 포함 법령 전체 구조 완전 재현
상호참조 351건 자동 그래프 구성
조문 본문에서 '제OO조' 패턴 전수 분석으로 조문 간 의존관계를 자동 감지. 특정 조문 수정 시 영향 범위를 즉시 추적 가능한 그래프 구조 완성
PDF·HWPX 비정형 파서 브라우저 시연 완료
pdfplumber+PyMuPDF(PDF), python-hwpx(HWPX)로 표·각주·이미지를 base64 추출. 병합 셀 rowspan/colspan 감지, 이미지 픽셀 크기·문서 참조 여부 판별 포함
FastAPI REST API 500ms 이내 응답 구현
법령 조문·판례 전문검색, 비정형 파일 업로드·파싱 엔드포인트 7종 구축. Render 무료 인스턴스에서 정적 검색 500ms 이내 응답 확인
Cloudflare Pages 시연 대시보드 즉시 배포
민법 트리 탐색, Before/After 원문 비교, 비정형 HWPX·PDF 렌더링, 전문검색 4개 섹션을 정적 사이트로 구현. 배포 즉시 모든 화면 정상 동작 확인
핵심 기능
law.go.kr 자동 수집 엔진
Playwright 없이 requests+BS4로 서버 부하 최소화. lsiSeq 기반 버전 관리로 법령 개정 즉시 최신 조문 자동 반영 가능
진행 단계
1단계: 법령 수집 엔진 설계
2026.06.
law.go.kr lsiSeq 기반 파싱 전략 분석, Playwright 제거 후 requests+BeautifulSoup으로 전환. pgroup 파싱으로 JoMun 완전 복원 방식 확립
프로젝트 상세
law.go.kr에서 법령 전문을 자동 수집하고 편-장-절-관-조-항-호-목 6계층 구조로 파싱한 뒤 MariaDB에 적재하는 수집 엔진 파일럿입니다. PDF·HWPX 비정형 첨부파일에서 표·각주·이미지를 추출하는 파서와 FastAPI REST API를 구축하고, 민법 3,615개 조문 노드와 상호참조 351건을 포함한 시연 대시보드를 Cloudflare Pages에 배포했습니다.

비슷한 프로젝트를 준비 중이라면?
위시켓 매니저와 상담하세요.

참여 개발사와 미팅 연결

프로젝트 1:1 컨설팅 제공

무료로 프로젝트 등록하기

작업한 파트너 프로필 보기

fi******
개발 · 개인사업자

프로젝트 정보

참여 기간
2026.06. ~ 2026.06.
참여율
참여율이 100%인 프로젝트는 해당 파트너님이 온전히 작업한 결과물입니다.
외부 공동 작업의 경우 기여도에 따라 참여율이 달라지며 역할, 프로젝트 설명을 통해 업무 분야 및 참여 범위를 확인할 수 있습니다.
100%
고객사
위시켓 공고
역할
개발
관련 기술
BeautifulSoup4
python-hwpx
MariaDB
requests
fastapi
PyMuPDF
pdfplumber
Python
CloudFlare Pages