모집 마감

외주

등록 일자 2026.05.06.

실시간 웹 기반 AI 오디오 믹싱 시스템 PoC 개발

개발디자인기획

웹PC 프로그램

기타(웹사이트 구축), SaaSㆍ솔루션, AI 모델 구축

예상 금액

20,000,000원

예상 기간

60일

지원자 수

24명

모집 마감일

2026년 05월 20일

예상 시작일

계약 체결 이후, 즉시 시작

진행 분류

기획 상태

프로젝트 경험

협업 예정 인력

우선 순위

업무 내용

[프로젝트 개요]
- 추상적 자연어 프롬프트를 인식하여 오디오 파라미터를 조작하고 믹싱하는 핵심 AI 모델 개발 및 검증 웹 PoC 구축

[프로젝트 배경 및 목표]
- 사용자의 텍스트 프롬프트를 인식하여 오디오 엔지니어링 지식그래프를 통해 최적의 믹싱 파라미터를 추론하고 이를 웹 브라우저 내 WASM 기반 DSP 엔진에서 실시간으로 구현하는 AI 오디오 플랫폼 구축 프로젝트입니다.

[과업 범위]

모집 요건

사전 검증 질문

지원서 작성시 클라이언트의 질문에 답변해 주세요.

미팅

사전 미팅 방식

클라이언트 위치

서울특별시 마포구

프로젝트 문의 11

비밀 댓글입니다.

2026.05.06. 오후 16:32

비밀 댓글입니다.

2026.05.06. 오후 16:42

비밀 댓글입니다.

2026.05.06. 오후 16:40

비밀 댓글입니다.

2026.05.06. 오후 16:46

ky******

클라이언트

안녕하세요, 프로젝트에 관심 가져주셔서 감사합니다.
현재 공고 내용으로 일부 오해가 있을 수 있어 주요 범위를 명확히 정리드립니다.

본 프로젝트는 연구용 PoC(Proof of Concept) 개발을 목표로 하며,
모든 기술을 신규 개발하는 것이 아니라 기존 모델 및 라이브러리를 활용한 통합 시스템 구현이 핵심입니다.

✔ 포함되는 범위
- 사용자 자연어 → 엔지니어링 의도(JSON) 변환 (LLM 활용)
- 지식그래프 기반 믹싱 파라미터 추론 로직 구현
- 오디오 DSP 기반 믹싱/마스터링 처리 (EQ, Compressor 등)
- 웹 기반 오디오 처리 및 UI PoC 구현

❌ 포함되지 않는 범위
- LLM 모델 자체 학습/파인튜닝
- 오디오 코덱(AAC, G.711 등) 또는 프로토콜 개발
- WebRTC 기반 실시간 스트리밍 처리
- TTS, 립싱크, 3D 캐릭터 연동
스템 분리 모델 자체 개발 (기존 오픈소스 활용)

혼동될 수 있는 표현이 있어 보완 설명드립니다.
감사합니다.

2026.05.06. 오후 16:50

ky******

클라이언트

@ky******추가로, 웹 UI 및 서비스 레벨은 연구용 PoC 범위에 가깝지만,
자연어 → Intent(JSON) → 지식그래프 기반 파라미터 추론 → DSP 처리로 이어지는 핵심 오디오 엔진은 단순 데모 수준이 아닌 실제 동작 가능한 수준으로 구현하는 것을 목표로 하고 있습니다.

2026.05.06. 오후 18:54

비밀 댓글입니다.

2026.05.06. 오후 16:59

비밀 댓글입니다.

2026.05.06. 오후 17:12

비밀 댓글입니다.

2026.05.06. 오후 18:38

비밀 댓글입니다.

2026.05.06. 오후 19:26

비밀 댓글입니다.

2026.05.06. 오후 19:25

yjw0817

안녕하세요. 상세 답변 감사합니다.

말씀주신 내용을 기준으로 보면, 본 프로젝트는 상용 수준의 완전 자동 믹싱 품질을 보장하는 개발이라기보다는, 자연어 프롬프트를 엔지니어링 의도 JSON으로 변환하고, 오디오 엔지니어가 정의한 규칙/프리셋 및 지식그래프를 기반으로 DSP 파라미터를 생성한 뒤, 웹에서 Before/After 비교가 가능한 연구용 PoC로 이해했습니다.

제가 보기에는 1차 PoC 범위를 아래와 같이 명확히 잡으면 현실적으로 진행 가능할 것 같습니다.

업로드 기반 처리 방식
MP3/WAV 업로드
서버에서 오디오 분석 및 스템 분리
비동기 처리 상태 표시
처리 완료 후 Before/After 비교 재생
자연어 → Intent JSON 변환
대표 프롬프트를 기준으로 의도 분류
예: “보컬을 앞으로”, “저음을 정리”, “따뜻하게”, “선명하게”, “공간감을 넓게” 등
LLM은 완전 자율 판단보다는 규칙/프리셋 기반 파라미터 추천을 보조하는 구조로 설계
지식그래프/규칙 기반 파라미터 추천
Neo4j 또는 규칙 테이블 기반으로 오디오 엔지니어링 관계를 구조화
Instrument / Intent / Problem / Frequency Range / DSP Action / Preset 구조 설계
초기에는 복잡한 범용 추론 엔진보다는 설명 가능한 규칙 기반 의사결정 구조로 구현
DSP 적용 범위
1차 PoC에서는 EQ, Compressor, Limiter, Reverb, Stereo Width 중심
send/return 구조는 기본 라우팅 수준으로 구현
초저지연 실시간보다는 업로드 → 분석 → 처리 → 비교 재생 흐름을 우선 구현
웹 PoC UI
파일 업로드
프롬프트 입력
실행 상태 표시
Before/After 플레이어
주요 파라미터 수동 조정 UI
결과 파일 다운로드
프로젝트/세션 저장 기능은 원본 파일, 결과 파일, 프롬프트, 생성 JSON, 처리 이력 저장 수준으로 우선 구현

다만 완료 기준은 “전체 파이프라인이 안정적으로 동작”이라는 표현만으로는 개발 범위 해석이 달라질 수 있어, 대표 테스트 음원 수와 대표 프롬프트 수를 정하는 것이 좋을 것 같습니다.

예를 들면 1차 PoC 기준으로는 다음과 같이 정의할 수 있을 것 같습니다.

대표 테스트 음원: 3~5개
대표 프롬프트: 10개 내외
스템 분리: 초기 4 stem 기준
DSP 모듈: EQ / Compressor / Limiter / Reverb / Stereo Width
결과 검증: 오디오 엔지니어가 제공한 기준 규칙 및 레퍼런스 결과를 기준으로 기능 동작 여부 확인
개발 완료 기준: 음질의 상용 수준 보장이 아니라, 의도 분석 → 파라미터 생성 → DSP 적용 → 비교 재생/저장까지의 핵심 파이프라인 정상 동작

위 기준으로 범위를 정리하면 기술 스택, 단계별 일정, 산출물 기준을 구체적으로 제안드릴 수 있을 것 같습니다.