프로젝트 배경
1) 예상 리스크 및 대응 계획 - PyInstaller + PaddleOCR 패키징 시 모델 파일 경로 문제 → sys._MEIPASS 기반 런타임 경로 해결 전략 적용 예정 - Python 3.14 최신 버전과 PaddleOCR 호환성 불확실 → 가상환경 격리 및 버전 핀 전략으로 대응 예정 - 담당자마다 다른 글씨체로 인한 OCR 정확도 편차 → 교정 데이터 누적 기반 학습 루프로 점진적 개선
프로젝트 성과
담당자별 글씨체 학습 파이프라인 설계
교정 이력을 누적 학습하여 반복 오인식을 자동 교정하는 apply_learn_correction() 파이프라인을 구현합니다.
3종 OCR 엔진 교체 가능 구조 구현
PaddleOCR·Google Vision·GPT를 팩토리 패턴으로 추상화하여 엔진 교체 시 파이프라인 코드 수정이 필요 없는 구조를 설계합니다.
일 40~50페이지 배치 자동화 구현
threading 기반 비동기 배치 처리로 UI 블로킹 없이 대량 PDF를 순차 처리하는 구조를 구현합니다.
PyInstaller 단일 .exe 패키징 구현
PaddleOCR 모델 파일과 config.json을 포함하는 단일 실행 파일로 패키징하여 Python 미설치 환경에서도 즉시 실행 가능하도록 설계합니다.
핵심 기능
진행 단계
환경 구성 및 기존 코드 분석
2026.03.
Python 3.14 환경 세팅, v9 코드 구조 파악 및 리팩토링 포인트 도출
프로젝트 상세
1) 포트폴리오 소개 지역주택조합 토지팀의 수기 업무일지를 OCR로 자동 파싱하여 12컬럼 구조화 DB로 저장하고, 일일업무보고·호실현황판을 자동 생성하는 데스크탑 자동화 시스템을 설계합니다. PaddleOCR 기반 엔진에 담당자별 글씨체 학습 파이프라인을 적용하여 반복 오인식을 교정하고, 일 40~50페이지 배치 처리를 안정적으로 처리하는 구조를 구현합니다. 2) 작업 범위 - 대시보드: 오늘 처리







