[프로젝트 개요] - PDF 문서 유형 자동 분류 및 JSON 정형 데이터 추출 시스템 개발
[프로젝트 배경 및 목표] - 현재 보유 중인 PDF 텍스트 추출 도구를 기반으로, 다양한 형태(3가지 유형)로 유입되는 PDF 문서를 자동으로 분석하여 유형을 판별하고, 각 유형에 맞는 핵심 정보를 추출하여 정해진 JSON 스키마로 저장하는 고도화 작업을 진행하고자 합니다. - 특히 문서의 페이지 수가 가변적이고 정보의 위치가 상이하므로, 단순 추출이 아닌 문맥 기반의 정확한 데이터 파싱을 목표로 합니다.
비밀 댓글입니다.