프로젝트 배경
본 프로젝트는 판례, 심결례, 조서 등 다양한 법률 문서에 특화된 OCR(광학 문자 인식) 모델 개발을 목표로 진행되었습니다. 기존 상용 OCR 솔루션이 존재하지만, 법률 문서의 높은 보안 요구 사항으로 인해 자체 인하우스 모델 구축이 필요했습니다. 또한, OCR로 추출한 텍스트 데이터를 사전 정의된 데이터베이스 형식으로 저장하는 것도 주요 목표였습니다. 예를 들어, 판례의 경우 “주문”, “이유” 등
프로젝트 성과
정확도 99% 이상 달성
- 한국어 법률 문서에서 최고 수준의 정확도를 보이는 모델 개발 완료
데이터 자동 후처리로 고객 요구사항에 맞게 저장
- 요구 사항에 맞춰 데이터를 추출/분류 후 데이터베이스에 저장할 수 있도록 설계 완료
핵심 기능
진행 단계
데이터 수집 및 분석
2023.01.
- 법률 문서 데이터 수취 및 Bounding Box 라벨링
- 선행연구 학습
- 선행연구 학습
프로젝트 상세
1. 포트폴리오 소개: 법률 문서에 특화된 OCR(광학 문자 인식) 모델 개발 2. 작업 범위: OCR 모델 개발, 데이터 처리 자동화 3. 주요 업무: 1) 법률 문서 특화 OCR 모델 개발 - 한국어 법률 문서에서 99% 이상의 인식 정확도를 제공하는 OCR 솔루션 구축 2) 다양한 입력 형식 지원 - PDF, 이미지(JPEG, PNG) 파일을 자동으로 텍스트 데이터로 변환 3) 법률







