프로젝트 배경
1. 문제점
- 회의/강의 후 수기로 정리하는데 많은 시간 소요
- 기존 STT 서비스는 단순 텍스트 변환만 제공, 정리는 사용자 몫
- 대용량 음성 파일 처리 시 서버 부하 및 타임아웃 이슈
- 화자 구분 없이 텍스트만 나열되어 가독성 저하
2. 프로젝트 목표
- 음성 업로드만으로 AI가 자동으로 정리된 문서 생성
- 화자 분리로 누가 무슨 말을 했는지 명확하게 표시
- 브라우저에서 대용량 파일 분할 처리로 안정적인 업로드
- 포인트 기반 과금으로 사용한 만큼만 결제
3. 주안점
- 사용자 중심 설계: 복잡한 설정 없이 파일 업로드만으로 결과 획득
- 고정밀 변환: 한국어 95% 이상 정확도의 STT API 선정
- 확장 가능한 구조: 새로운 AI 기능 추가가 용이한 모듈화 설계
- 회의/강의 후 수기로 정리하는데 많은 시간 소요
- 기존 STT 서비스는 단순 텍스트 변환만 제공, 정리는 사용자 몫
- 대용량 음성 파일 처리 시 서버 부하 및 타임아웃 이슈
- 화자 구분 없이 텍스트만 나열되어 가독성 저하
2. 프로젝트 목표
- 음성 업로드만으로 AI가 자동으로 정리된 문서 생성
- 화자 분리로 누가 무슨 말을 했는지 명확하게 표시
- 브라우저에서 대용량 파일 분할 처리로 안정적인 업로드
- 포인트 기반 과금으로 사용한 만큼만 결제
3. 주안점
- 사용자 중심 설계: 복잡한 설정 없이 파일 업로드만으로 결과 획득
- 고정밀 변환: 한국어 95% 이상 정확도의 STT API 선정
- 확장 가능한 구조: 새로운 AI 기능 추가가 용이한 모듈화 설계
프로젝트 성과
정량적 성과
- 개발 기간: 3개월 (1인 개발, Phase 1 기준)
- 페이지 수: 20+ 페이지 (메인, 대시보드, 결제, 내역 등)
- API 엔드포인트: 30+ 개 (인증, 음성처리, 결제, 관리)
- 페이지 수: 20+ 페이지 (메인, 대시보드, 결제, 내역 등)
- API 엔드포인트: 30+ 개 (인증, 음성처리, 결제, 관리)
정성적 성과
- 서버 부하 감소: ffmpeg.wasm 브라우저 분할로 서버 처리량 50% 절감
- 안정적인 인증: JWT + Refresh Token으로 토큰 탈취 시에도 피해 최소화
- 안정적인 인증: JWT + Refresh Token으로 토큰 탈취 시에도 피해 최소화
핵심 기능

AI 자동 정리
회의록/강의록/대화록 3가지 모드로 맞춤형 정리. 주요 내용, 결정사항, 액션아이템 자동 추출.
진행 단계
요구사항 분석
2025.09.
STT API 비교 분석, 경쟁 서비스 벤치마킹, 기능 명세 작성
설계
2025.09.
정보구조(IA) 설계, 와이어프레임, DB 스키마 설계
프론트엔드 개발
2025.09.
컴포넌트 개발, 페이지 구현, 파일 처리 로직
백엔드 개발
2025.09.
API 개발, OAuth 연동, 외부 API 통합
결제 연동
2025.10.
PortOne 결제 위젯, 웹훅 처리, 포인트 시스템
프로젝트 상세
1. 포트폴리오 소개
회의, 강의, 대화를 녹음하면 AI가 자동으로 텍스트로 변환하고 깔끔하게 정리해주는 B2C 음성 메모 서비스입니다.
- 서비스 카테고리: AI/음성인식, B2C SaaS, 생산성 도구
- 메인 타깃:
- 회의/강의/대화를 자주 하는 직장인
- 빠른 기록이 필요한 콘텐츠 크리에이터
- 학생, 강사, 컨설턴트 등 전문가
- 핵심 가치: 음성 파일을 업로드하면 AI가 고정밀 텍스트 변환(STT) + 화자 분리 + 회의록/강의록/대화록으로 자동 정리
2. 작업 범위
- 요구사항 정의: 음성 처리 기술 조사, 기능 명세 작성
- 화면 설계: 와이어프레임, 정보구조(IA) 설계
- UI/UX 디자인: 반응형 웹 디자인, 다크모드 지원
- Front-end 개발: Next.js 15, React 19, TypeScript, Tailwind CSS
- Back-end 개발: Next.js API Routes, Express.js, JWT 인증
- 외부 API 연동: Soniox STT API, OpenAI GPT-4, Google OAuth, PortOne 결제
- 배포/운영: Vercel 배포, Docker, AWS ECS (예정)
지원 환경: 반응형 웹 (PC, 태블릿, 모바일)
3. 주요 업무 (핵심 기능)
기능 1: 고정밀 음성 인식 (STT) 시스템
- Soniox API 기반 음성-텍스트 변환 (한국어 95% 정확도)
- 지원 형식: MP3, WAV, M4A, AAC, OGG, FLAC (최대 50MB, 180분)
- 비동기 처리: 5초 폴링으로 실시간 진행 상태 확인
- 화자 자동 구분: Speaker Diarization으로 최대 10명 화자 분리
기능 2: AI 기반 텍스트 자동 정리
- OpenAI GPT-4 기반 3가지 정리 모드:
- 회의록: 주요 안건, 결정사항, 액션아이템 추출
- 강의록: 챕터별 구분, 핵심 개념, 키워드 정리
- 대화록: 화자별 구분, 대화 흐름, 요약 제공
- Markdown 형식 출력, TXT/PDF 내보내기 지원
기능 3: 대용량 파일 브라우저 분할 처리
- ffmpeg.wasm 기반 브라우저에서 직접 파일 분할 (서버 부하 감소)
- 60분 단위 청크 분할, Codec Copy 방식으로 초고속 처리
- 여러 청크 병렬 업로드 및 변환으로 처리 속도 최적화
기능 4: OAuth 소셜 로그인
- Google OAuth 2.0 로그인 (Passport.js)
- Kakao OAuth 로그인 (개발 완료, 심사 대기)
- JWT Access Token (15분) + Refresh Token (7일) 기반 인증
- 로그인 상태 유지 (Remember Me) 기능
기능 5: 포인트 결제 시스템
- PortOne(구 아임포트) 결제 위젯 통합
- 신용카드, 카카오페이, 네이버페이, 계좌이체 지원
- 포인트 패키지: 1,000P/10,000원, 5,000P/45,000원, 10,000P/80,000원
- 서버사이드 포인트 관리로 보안 강화 (JWT에 포인트 미포함)
기능 6: 변환 내역 관리
- 사용자별 변환 작업 히스토리 저장
- 태그, 메모 추가 및 검색/필터링
- 포인트 사용 내역 조회
4. 주안점 (기술적 특징)
- 브라우저 기반 파일 처리: ffmpeg.wasm으로 서버 부하 50% 감소, 재인코딩 없이 빠른 분할
- 화자 분리 기술: Soniox Speaker Diarization으로 화자별 발언 자동 구분
- 서버사이드 보안: 포인트는 서버에서만 관리, 클라이언트 조작 원천 차단
- 한글 인코딩 처리: TextDecoder + encodeURIComponent로 JWT 한글 완벽 지원
- 결제 멱등성: orderId 기반 중복 결제 방지 처리
- 인앱 브라우저 대응: 카카오톡/인스타그램 인앱 브라우저 감지 및 외부 브라우저 리다이렉트
- 성능 최적화: Next.js SSR/SSG, 이미지 최적화, 코드 스플리팅
회의, 강의, 대화를 녹음하면 AI가 자동으로 텍스트로 변환하고 깔끔하게 정리해주는 B2C 음성 메모 서비스입니다.
- 서비스 카테고리: AI/음성인식, B2C SaaS, 생산성 도구
- 메인 타깃:
- 회의/강의/대화를 자주 하는 직장인
- 빠른 기록이 필요한 콘텐츠 크리에이터
- 학생, 강사, 컨설턴트 등 전문가
- 핵심 가치: 음성 파일을 업로드하면 AI가 고정밀 텍스트 변환(STT) + 화자 분리 + 회의록/강의록/대화록으로 자동 정리
2. 작업 범위
- 요구사항 정의: 음성 처리 기술 조사, 기능 명세 작성
- 화면 설계: 와이어프레임, 정보구조(IA) 설계
- UI/UX 디자인: 반응형 웹 디자인, 다크모드 지원
- Front-end 개발: Next.js 15, React 19, TypeScript, Tailwind CSS
- Back-end 개발: Next.js API Routes, Express.js, JWT 인증
- 외부 API 연동: Soniox STT API, OpenAI GPT-4, Google OAuth, PortOne 결제
- 배포/운영: Vercel 배포, Docker, AWS ECS (예정)
지원 환경: 반응형 웹 (PC, 태블릿, 모바일)
3. 주요 업무 (핵심 기능)
기능 1: 고정밀 음성 인식 (STT) 시스템
- Soniox API 기반 음성-텍스트 변환 (한국어 95% 정확도)
- 지원 형식: MP3, WAV, M4A, AAC, OGG, FLAC (최대 50MB, 180분)
- 비동기 처리: 5초 폴링으로 실시간 진행 상태 확인
- 화자 자동 구분: Speaker Diarization으로 최대 10명 화자 분리
기능 2: AI 기반 텍스트 자동 정리
- OpenAI GPT-4 기반 3가지 정리 모드:
- 회의록: 주요 안건, 결정사항, 액션아이템 추출
- 강의록: 챕터별 구분, 핵심 개념, 키워드 정리
- 대화록: 화자별 구분, 대화 흐름, 요약 제공
- Markdown 형식 출력, TXT/PDF 내보내기 지원
기능 3: 대용량 파일 브라우저 분할 처리
- ffmpeg.wasm 기반 브라우저에서 직접 파일 분할 (서버 부하 감소)
- 60분 단위 청크 분할, Codec Copy 방식으로 초고속 처리
- 여러 청크 병렬 업로드 및 변환으로 처리 속도 최적화
기능 4: OAuth 소셜 로그인
- Google OAuth 2.0 로그인 (Passport.js)
- Kakao OAuth 로그인 (개발 완료, 심사 대기)
- JWT Access Token (15분) + Refresh Token (7일) 기반 인증
- 로그인 상태 유지 (Remember Me) 기능
기능 5: 포인트 결제 시스템
- PortOne(구 아임포트) 결제 위젯 통합
- 신용카드, 카카오페이, 네이버페이, 계좌이체 지원
- 포인트 패키지: 1,000P/10,000원, 5,000P/45,000원, 10,000P/80,000원
- 서버사이드 포인트 관리로 보안 강화 (JWT에 포인트 미포함)
기능 6: 변환 내역 관리
- 사용자별 변환 작업 히스토리 저장
- 태그, 메모 추가 및 검색/필터링
- 포인트 사용 내역 조회
4. 주안점 (기술적 특징)
- 브라우저 기반 파일 처리: ffmpeg.wasm으로 서버 부하 50% 감소, 재인코딩 없이 빠른 분할
- 화자 분리 기술: Soniox Speaker Diarization으로 화자별 발언 자동 구분
- 서버사이드 보안: 포인트는 서버에서만 관리, 클라이언트 조작 원천 차단
- 한글 인코딩 처리: TextDecoder + encodeURIComponent로 JWT 한글 완벽 지원
- 결제 멱등성: orderId 기반 중복 결제 방지 처리
- 인앱 브라우저 대응: 카카오톡/인스타그램 인앱 브라우저 감지 및 외부 브라우저 리다이렉트
- 성능 최적화: Next.js SSR/SSG, 이미지 최적화, 코드 스플리팅




