프로젝트 배경
1) 문제점 실존 인물을 기반으로 한 고품질 가상 영상 제작은 높은 비용과 전문 지식이 요구되며, 표정·포즈·음성의 자유로운 조작이 어렵다. 2) 프로젝트 목표 LoRA·TTS·ControlNet 등을 결합한 자동화 파이프라인을 구축하여, 특정 인물 스타일의 음성+영상 콘텐츠를 저비용으로 생성 가능하게 한다. 3) 주안점 인물의 표정·포즈·배경·음성을 정밀하게 제어 실제 인물에 유사한 외형·
프로젝트 성과
가상 인물 제작 시간 70% 단축
기존 수작업 대비 가상 인물 영상 제작 시간이 평균 10시간 → 3시간 이내로 감소
음성·영상 합성 일관성 향상
TTS 립싱크 적용으로 영상 내 입모양 일치도 평균 85% 이상 달성
콘텐츠 다양성 확보
ControlNet 기반 포즈·표정 변화로 약 50가지 이상의 상황/감정 표현 가능한 템플릿 확보
자동화 파이프라인 구축
ComfyUI 기반 영상 생성 플로우 구축으로 반복 제작 효율 3배 향상
핵심 기능
진행 단계
데이터 수집 및 모델 설계
2024.02.
이미지 및 음성 학습용 데이터셋 정리 및 LoRA, TTS, ControlNet 설계
프로젝트 상세
1. 포트폴리오 소개 Stable Diffusion 및 TTS 모델을 기반으로 가상의 인물(이제훈 스타일)을 생성하고, 음성과 립싱크까지 결합한 영상 콘텐츠를 제작. 상황, 표정, 포즈, 배경 등을 자유롭게 조정할 수 있어 광고, 행사, 홍보용 영상 콘텐츠 자동화에 활용 가능. 2. 작업 범위 1) 가상 인물 이미지 및 영상 제작 - Flux 기반 LoRA로 특정 인물 스타일 생성 - ComfyU







