프로젝트 배경
1) 문제점
.
- 기존 키오스크/챗봇의 한계 : 텍스트 위주의 안내 시스템은 딱딱하고 인간적인 상호작용이 부족하여 고객 몰입도가 낮음.
.
- 개인정보 및 보안 우려 : 민감한 사내 데이터나 고객 정보를 클라우드 API로 전송해야 하는 기존 AI 솔루션은 보안상 도입이 꺼려짐.
.
- 유지보수의 어려움 : 서비스 변경 시마다 개발자가 직접 데이터를 재가공해야 하거나, 아바타 및 음성 커스터마이징 비용이 높음.
.
.
2) 프로젝트 목표
.
- 실감형 인터랙션 구현 : 3D 아바타와 음성 대화를 통해 실제 사람과 대화하는 듯한 자연스러운 안내 시스템 구축.
.
- 보안 중심의 하이브리드 설계 : RAG(검색)와 데이터 처리는 로컬에서 수행하여 보안을 강화하고, 필요에 따라 로컬 LLM(Gemma)으로 전환 가능한 구조 설계.
.
- 운영 자동화 : 관리자가 문서를 업로드하기만 하면 자동으로 학습하는 시스템을 통해 유지보수 효율 극대화.
.
.
3) 주안점
.
- 한국어 특화 성능 최적화 : STT(인식) + KoE5(검색) + LLM(생성) 조합을 통해 한국어 처리 속도와 정확도 동시 확보.
.
- 멀티모달 동기화 : 텍스트 생성 시 감정 분석을 통해 아바타의 제스처와 표정, 목소리 톤(RVC)이 일치하도록 구현.
.
- 비용 효율성 : 오픈소스 기술(RVC, Faiss, VRM 등)을 적극 활용하여 라이선스 비용 없는 고품질 솔루션 개발.
.
- 기존 키오스크/챗봇의 한계 : 텍스트 위주의 안내 시스템은 딱딱하고 인간적인 상호작용이 부족하여 고객 몰입도가 낮음.
.
- 개인정보 및 보안 우려 : 민감한 사내 데이터나 고객 정보를 클라우드 API로 전송해야 하는 기존 AI 솔루션은 보안상 도입이 꺼려짐.
.
- 유지보수의 어려움 : 서비스 변경 시마다 개발자가 직접 데이터를 재가공해야 하거나, 아바타 및 음성 커스터마이징 비용이 높음.
.
.
2) 프로젝트 목표
.
- 실감형 인터랙션 구현 : 3D 아바타와 음성 대화를 통해 실제 사람과 대화하는 듯한 자연스러운 안내 시스템 구축.
.
- 보안 중심의 하이브리드 설계 : RAG(검색)와 데이터 처리는 로컬에서 수행하여 보안을 강화하고, 필요에 따라 로컬 LLM(Gemma)으로 전환 가능한 구조 설계.
.
- 운영 자동화 : 관리자가 문서를 업로드하기만 하면 자동으로 학습하는 시스템을 통해 유지보수 효율 극대화.
.
.
3) 주안점
.
- 한국어 특화 성능 최적화 : STT(인식) + KoE5(검색) + LLM(생성) 조합을 통해 한국어 처리 속도와 정확도 동시 확보.
.
- 멀티모달 동기화 : 텍스트 생성 시 감정 분석을 통해 아바타의 제스처와 표정, 목소리 톤(RVC)이 일치하도록 구현.
.
- 비용 효율성 : 오픈소스 기술(RVC, Faiss, VRM 등)을 적극 활용하여 라이선스 비용 없는 고품질 솔루션 개발.
프로젝트 성과
보안성이 보장된 로컬 기반 RAG 파이프라인 구축
임베딩(KoE5)과 벡터 검색(Faiss), 음성 변환(RVC) 등 핵심 모듈을 로컬 서버에서 구동하도록 설계하여 외부 데이터 유출 가능성을 원천 차단했습니다.
지식 데이터 관리 자동화로 운영 효율 개선
기존의 수동 데이터베이스화 과정을 제거하고, 폴더 내 파일(PDF, TXT 등) 변경을 실시간 감지하여 벡터 DB를 자동 갱신하는 하여, 비개발자(매장 관리자)도 즉각적인 업데이트 가능하게 했습니다.
오픈소스 활용을 통한 고품질 커스텀 보이스 및 아바타 구현
상용 TTS의 기계적인 톤을 극복하기 위해 TTS에 RVC 기술을 결합하여, 특정 캐릭터나 브랜드 이미지에 맞는 '페르소나 보이스'를 비용 없이 생성할 수 있습니다.
핵심 기능
실시간 음성-제스처 동기화
사용자의 음성을 인식(STT)하고 답변을 생성하는 과정에서, 답변의 맥락(긍정/부정/인사 등)을 파악하여 3D 아바타(Three.js/VRM)가 적절한 표정과 손짓을 자동으로 수행하며 답변합니다.
하이브리드 RAG 검색 시스템
한국어에 최적화된 KoE5 모델을 사용해 사내 문서나 매뉴얼을 벡터화하고, 질문 시 가장 정확한 정보를 찾아내어 환각(Hallucination) 현상이 없는 팩트 기반의 답변을 제공합니다.
RVC 기반 맞춤형 음성 변환
기본 TTS 음성을 브랜드나 캐릭터에 어울리는 특정 목소리(성우, 캐릭터 등)로 실시간 변환하여 송출함으로써, 서비스의 아이덴티티를 명확히 하고 사용자 친밀감을 높입니다.
로컬-클라우드 유연한 모델 스위칭
보안이 최우선이거나 오프라인 환경인 경우 로컬 LLM(Gemma, Qwen 등)으로 즉시 전환하여 서비스 중단 없이 운영할 수 있는 아키텍처를 제공합니다.
프로젝트 상세
1) 포트폴리오 소개
음성 기반 한국어 질의응답과 3D 아바타 인터랙션이 가능한 AI 어시스턴트를 구축한 프로젝트입니다.
이 시스템은 매장 직원, 무인상담원, 전시 안내용 등 실제 사용 환경에서 활용될 수 있도록 설계되었으며, 보안성과 응답 품질을 모두 고려한 로컬 운용 가능 AI 시스템입니다.
• 타깃: 한국어 상담/응대가 필요한 매장 운영자, 브랜드 전시 부스, 키오스크 등
• 카테고리: 인공지능 챗봇 / RAG 검색 / 음성 인터페이스 / 3D 인터랙션
2) 작업 범위
• FastAPI 기반 전체 시스템 개발
• 음성 인식(STT), 문서 검색(RAG), 텍스트 생성, 음성 합성(TTS), 검색 기반 음성 변환(RVC), 제스처 출력 통합
• Web 기반 UI 설계 및 Three.js 기반 3D 아바타 연동
• 로컬 실행 가능 구조로 설계하여 보안상 클라우드 의존 제거 가능
• 지식 파일 자동 감지, 임베딩 자동화, API 엔드포인트 구성
지원 환경: 로컬 실행(개인 PC), Mac 기반 서버, Web 인터페이스 사용
3) 주요 업무
• 로컬 STT 기반 한국어 음성 인식 및 전처리
• KoE5 기반 문서 임베딩 및 검색 (RAG 구조)
• LLM을 통한 자연스러운 응답 생성
• OpenAI TTS + RVC 음성 변환으로 실제 목소리에 가까운 출력 구현
• 3D 아바타(VRM)와 연동된 제스처 출력 (상황별 표정 및 동작 자동 선택)
• 지식 파일(PDF, TXT, MD 등) 변경 시 자동 감지 및 벡터 임베딩 처리
• 웹 UI 상에서 음성 녹음 및 응답 제어
4) 주안점
• 한국어 기반 환경 최적화
• 지식 베이스의 실시간 업데이트 및 반영 구조 설계
• 제스처와 음성을 연동한 “사람 같은 반응” 구현에 집중
• 오픈 소스를 사용하여 라이선스 비용 없음
• 일반인도 제작하기 쉬운 3D 캐릭터 툴이 있음
• 보안성을 위해 로컬 모델 기반 설계 가능 (RVC, KoE5, Faiss 등 전부 로컬화 되어있으며, Gemma3 모델로 교체해서 사용해도 성능이 충분했음)
• 서버 부하 최소화를 위해 비동기 FastAPI + 캐시 기반 설계 적용
음성 기반 한국어 질의응답과 3D 아바타 인터랙션이 가능한 AI 어시스턴트를 구축한 프로젝트입니다.
이 시스템은 매장 직원, 무인상담원, 전시 안내용 등 실제 사용 환경에서 활용될 수 있도록 설계되었으며, 보안성과 응답 품질을 모두 고려한 로컬 운용 가능 AI 시스템입니다.
• 타깃: 한국어 상담/응대가 필요한 매장 운영자, 브랜드 전시 부스, 키오스크 등
• 카테고리: 인공지능 챗봇 / RAG 검색 / 음성 인터페이스 / 3D 인터랙션
2) 작업 범위
• FastAPI 기반 전체 시스템 개발
• 음성 인식(STT), 문서 검색(RAG), 텍스트 생성, 음성 합성(TTS), 검색 기반 음성 변환(RVC), 제스처 출력 통합
• Web 기반 UI 설계 및 Three.js 기반 3D 아바타 연동
• 로컬 실행 가능 구조로 설계하여 보안상 클라우드 의존 제거 가능
• 지식 파일 자동 감지, 임베딩 자동화, API 엔드포인트 구성
지원 환경: 로컬 실행(개인 PC), Mac 기반 서버, Web 인터페이스 사용
3) 주요 업무
• 로컬 STT 기반 한국어 음성 인식 및 전처리
• KoE5 기반 문서 임베딩 및 검색 (RAG 구조)
• LLM을 통한 자연스러운 응답 생성
• OpenAI TTS + RVC 음성 변환으로 실제 목소리에 가까운 출력 구현
• 3D 아바타(VRM)와 연동된 제스처 출력 (상황별 표정 및 동작 자동 선택)
• 지식 파일(PDF, TXT, MD 등) 변경 시 자동 감지 및 벡터 임베딩 처리
• 웹 UI 상에서 음성 녹음 및 응답 제어
4) 주안점
• 한국어 기반 환경 최적화
• 지식 베이스의 실시간 업데이트 및 반영 구조 설계
• 제스처와 음성을 연동한 “사람 같은 반응” 구현에 집중
• 오픈 소스를 사용하여 라이선스 비용 없음
• 일반인도 제작하기 쉬운 3D 캐릭터 툴이 있음
• 보안성을 위해 로컬 모델 기반 설계 가능 (RVC, KoE5, Faiss 등 전부 로컬화 되어있으며, Gemma3 모델로 교체해서 사용해도 성능이 충분했음)
• 서버 부하 최소화를 위해 비동기 FastAPI + 캐시 기반 설계 적용

실시간 음성 인식을 통해 사용자의 입력을 기다리는 AI 어시스턴트

내용에 따라 행동을 바꿔가며 대답하는 AI 어시스턴트


