프로젝트 배경
1)문제점 - 비정형 데이터의 검색 불가: 사내에 축적되는 법률 상담 녹취록(음성)이나 스캔된 계약서, 메신저 캡처(이미지) 등은 텍스트 검색이 불가능하여 정보 활용도가 낮음. - 수동 업무의 비효율성: 녹취 내용을 확인하거나 계약서의 중요 조항을 찾기 위해 담당자가 일일이 파일을 열어보거나 청취해야 하여 많은 시간이 소요됨. - 정보 파편화 및 유실 위험: 개인 PC에 산재된 비정형 파일들은 내용 파악
프로젝트 성과
비정형 데이터(이미지·음성)의 구조화 자동화 파이프라인 구축
기존에 수작업으로 진행하던 법률 녹취록 작성과 계약서/채팅 내역 입력을 자동화하기 위해 Python 기반의 통합 API 서버를 구축했습니다.
도메인 특화 전처리(Preprocessing) 알고리즘을 통한 인식 정확도 향상
범용 AI 모델의 한계를 극복하기 위해, 입력 데이터의 특성(오디오, 이미지)에 맞춘 자체 전처리 로직을 개발하여 인식률을 대폭 개선했습니다.
LLM(Gemma) 기반의 문맥 인식 및 데이터 고도화
단순한 텍스트 추출을 넘어, 생성형 AI(Google Gemma-3-27B)를 후처리 단계에 도입하여 데이터의 의미를 파악하고 가독성을 높였습니다.
업무 확장성을 고려한 다중 포맷 지원 및 API 서버 개발
개발된 모듈이 사내의 다양한 시스템(검색 엔진, 데이터베이스 등)과 유연하게 연동될 수 있도록 확장성 있는 백엔드 시스템을 설계했습니다.
핵심 기능
진행 단계
요구사항 분석 및 시스템 아키텍처 설계
2025.10.
법률 상담 녹취록의 화자 분리(Diarization)와 채팅/계약서 등 비정형 문서의 텍스트 추출 자동화 필요성을 정의
프로젝트 상세
법률·비즈니스 업무 자동화를 위한 AI 기반 STT 및 OCR 솔루션 개발 1) 포트폴리오 소개 - 서비스 카테고리: AI (Legal-Tech, 업무 자동화), B2B 솔루션 - 메인 타깃: 많은 양의 녹취록과 문서를 처리해야 하는 변호사, 법률 사무소 및 기업 실무자 - 소개: 법률 상담 녹취록의 화자 분리 및 텍스트 변환(STT)과 채팅 내역·계약서·이체내역서 등 비정형 문서의 데이터 구조화(








