프로젝트 배경
1. 문제점 • LLM 응답 품질은 Retrieval 방식, Prompt 구성, Generator 선택에 따라 매우 달라지지만, 이를 체계적으로 실험/비교할 수 있는 툴이 부재 • 다양한 모듈 조합을 실험하려면 수작업 설정 및 수기 비교가 필요해 시간과 리소스 낭비가 큼 • 테스트 결과를 대시보드로 시각화하거나 최종 결과를 실서비스에 연결할 수 없음 2. 목표 • 모듈형 RAG 파
프로젝트 성과
RAG 구성 실험 시간 단축
다양한 조합 실험이 자동화되어 기존 수작업 대비 소요 시간이 수일에서 수분으로 단축됨
AI 연구 생산성 향상
RAG 테스트 자동화로 연구 효율성 3배 이상 향상, 반복 실험 시 소요 리소스 최소화
실서비스 배포 속도 개선
챗봇 배포 자동화 기능 구현으로 RAG 실험 결과의 서비스 적용 기간이 약 50% 단축됨
협업 및 평가 프로세스 최적화
실시간 시각화된 대시보드를 통해 실험 결과를 즉시 공유하고 피드백을 신속하게 반영 가능
플랫폼화 및 내부 표준 정착
평가 구성과 이력 저장 기능을 통해 연구팀의 실험 관리 프로세스가 체계화되어 표준 플랫폼으로 정착됨
핵심 기능
진행 단계
요구사항 분석 및 고객 인터뷰, 평가 지표 구조 설계
2024.01.
고객의 LLM 실험 및 배포 프로세스를 분석하고, 평가 목적과 기준을 정의함
Retrieval/Prompt/Generation 각 모듈별 성능 평가 항목을 수립하고 지표 체계를 설계함
Retrieval/Prompt/Generation 각 모듈별 성능 평가 항목을 수립하고 지표 체계를 설계함
프로젝트 상세
해당 프로젝트는 고객사가 자체적으로 연구·운영하는 다양한 LLM 기반 응용 시스템에서 가장 적합한 RAG 파이프라인 구성을 평가하고 최적화할 수 있도록 돕는 내부 툴을 구축하는 것이 목표였습니다. 기존에는 다양한 RAG 조합(Retrieval strategy, Re-ranker, Generator 등)을 수작업으로 실험하며 비교 분석하고 있었기에, 저희는 평가 항목을 체계화하고 자동화할 수 있는 모듈형







