프로젝트 배경
1) 예상 리스크 및 대응 계획 - 수기 숫자 6·8·9 혼동 오인식 → 필드별 정규식 검증 + 학습 교정 2단계 필터로 대응 예정 - PyInstaller + PaddleOCR 대용량 모델 번들 → --add-data 플래그로 모델 파일 경로 명시 및 sys._MEIPASS 경로 해결 예정 - 검침 용지 종류·크기 다양성 → 전처리 파라미터 config.json 외부화로 운영 중 최적화 대응 2)
프로젝트 성과
검침원별 글씨체 학습 교정 파이프라인 설계
검침원별 오인식 이력을 분리 관리하고 apply_learn_correction()에 반영하여 동일 검침원의 보고서 처리 정확도가 누적 교정과 함께 향상되는 구조를 구현합니다.
Z-score 기반 이상 검침값 자동 감지 구현
수용가별 과거 이력을 기반으로 통계적 이상값을 자동 탐지하고 보고서에 반영하는 알고리즘을 설계합니다.
수기 숫자 OCR 전처리 파이프라인 구현
그레이스케일·샤프닝·이진화 전처리 파라미터를 config.json으로 외부화하여 용지 종류별 최적화를 지원하는 구조를 구현합니다.
PyInstaller 단일 .exe 패키징 구현
openpyxl·PaddleOCR 모델 파일을 --add-data 플래그로 번들링하여 Python 미설치 환경에서 더블클릭 실행 가능한 단일 실행 파일로 패키징하는 구조를 구현합니다.
핵심 기능
진행 단계
도메인 분석 및 설계
2026.03.
검침 보고서 양식 분석, DB 스키마 설계, 이상 탐지 알고리즘 설계
프로젝트 상세
1) 포트폴리오 소개 검침원이 제출하는 수기 검침 보고서(PDF/사진)를 OCR로 자동 파싱하여 수용가번호·검침값·날짜를 구조화 DB에 저장하고, 이상 검침값 자동 감지와 엑셀 보고서 자동 생성을 제공하는 문서 자동화 시스템을 설계합니다. PaddleOCR 기반 수기 숫자 인식에 필드별 학습 교정을 적용하여 검침원별 숫자 필기 패턴 오인식을 교정하는 파이프라인을 구현합니다. 2) 작업 범위 - 업로드







