프로젝트 배경
1) 배경 - 고객사들이 음성 합성 시 더 좋은 퀄리티의 음성을 듣고 싶어합니다 - 고객사들이 스트리밍에서 더 빠른 응답 시간을 원합니다 2) 개선 사항 - 음성 복제를 더욱 더 잘 할 수 있도록 Classifier-free guidance 기술을 적용하였습니다 - 특히 사용자가 스트리밍 모드에서 처음 음성을 듣는 속도를 기존 1초 이상 걸리던 걸 400ms까지 단축하여, 일레븐랩스와 같은 경쟁사
프로젝트 성과
스트리밍 응답 시간을 400ms까지 단축
서버의 동시성이 증가되며, 스트리밍 이용자들의 만족도가 크게 향상됨
핵심 기능
진행 단계
문제점 파악
2025.04.
해당 서비스의 문제점 및 개선 방안 수립하였습니다.
프로젝트 상세
1) 포트폴리오 소개 사용자 음성을 복제해서 TTS(Text-to-Speech)로 음성을 합성할 수 있게하는 엔진 개발에 기여하였습니다. 2) 작업 범위 - 모델 퀄리티 개선 - 스트리밍 모델 서빙 고도화







