passionex · 위시켓(Wishket)

프로젝트 배경

해결하려는 문제

클라우드 서비스 기반 STT(음성 인식)는 비용·보안 문제로 쉽게 도입하기 어려움
내부망 환경(예: 기업 인트라넷, 보안망)에서 음성 데이터를 외부로 전송하지 못하는 한계

기존 Whisper 모델은 개발자가 직접 로컬에서 다루기 번거롭고, 스트리밍 지원이 부족하여 실시간 회의/강의 기록에 활용이 어려움

목표

내부망에서도 독립적으로 동작하는 오픈소스 기반 STT 서버 구축
Whisper(OpenSourceSTT) 모델을 활용한 실시간 스트리밍 변환(SSE) 제공
Python(FastAPI) + PHP Proxy 구조로 외부망-내부망 브리지 환경 지원
직관적 UI를 통해 개발자·실무자 누구나 쉽게 테스트 및 활용할 수 있는 웹 클라이언트 제공
연구자/개발자들이 상용 API 의존 없이, 저비용·안전하게 음성 데이터를 활용할 수 있는 인프라 마련

프로젝트 성과

인식률 높은 오픈소스내장된 서버 구현

핵심 기능

실시간(STREAM) 음성 변환

업로드된 오디오 파일을 Whisper(OpenSourceSTT) 모델로 SSE 기반 스트리밍 변환

인식 중간 결과를 세그먼트 단위로 실시간 표시

프록시 연동 (Python + PHP)

내부망 FastAPI 서버와 외부망 PHP Proxy 연동

보안망 환경에서도 외부에서 접근 가능하게 브리지 역할 수행

직관적 웹 클라이언트 (Dark UI)

Dropzone 기반 드래그 앤 드롭 업로드

옵션 제공: 언어 지정, 번역 여부, Beam size 설정

결과 출력: 누적 텍스트 + 세그먼트별 로그 UI

진행 단계

기획/디자인/개발/테스트/런칭

2025.09.

기획/디자인/개발/테스트/런칭

프로젝트 상세

1) 포트폴리오 소개

서비스 카테고리: AI · 음성인식 · 오픈소스 인프라

메인 타깃: 연구자, 개발자, 기업 내 실무자(회의/강의/콜센터 로그 기록), 오픈소스 기반 음성처리 환경을 필요로 하는 스타트업 및 개인 개발자

2) 작업 범위

개발 범위:
서버: Python(FastAPI) 기반 Whisper 호환 STT 서버 구축
프록시: PHP Proxy 연동 (내부망/외부망 브리지)
클라이언트: 웹 브라우저 기반 UI/UX 설계 및 구현 (Dropzone, Health Check Panel, Streaming Log)

지원 환경:

반응형 웹 클라이언트 (데스크톱/모바일 대응)
서버 환경 (GPU 서버, 내부망-외부망 Proxy 연동)

3) 주요 업무

실시간(STREAM) 및 일괄(NON-STREAM) 음성 변환 기능 제공
SSE(Server-Sent Events) 기반 세그먼트 로그 스트리밍
헬스체크(/health, /ready) 패널 구현 — Proxy/Upstream 상태 및 Latency 모니터링
Drag & Drop 파일 업로드 및 옵션(언어 선택, 번역, Beam size) 지원
누적 텍스트 결과 영역 + 세그먼트별 실시간 로그 UI

4) 주안점

Whisper/OpenSourceSTT 호환성을 유지하면서 실시간 스트리밍 환경 제공
내부망/외부망 이중화 환경을 위한 Python + PHP Proxy 구조 설계
다양한 사용자 환경 대응 (브라우저 단일 접근, 모바일·데스크톱 반응형)