agilefactory · 위시켓(Wishket)

프로젝트 배경

■ 문제점

▪ 범용 WebRTC 미디어서버의 확장 한계
경쟁력 확보를 위해 Google Meet과 동등한 엔터프라이즈급 화상회의 서비스를 목표로 했으나, Janus·Jitsi 등 기존 SFU 기반 범용 미디어서버는 대규모 동시 접속 환경에서 성능 최적화와 서비스 요구사항에 맞춘 심도 있는 커스터마이징이 어렵고, 다수 참여자를 고려한 복잡한 영상 레이아웃과 고급 오디오·비디오 제어 구현에 명확한 한계가 있었습니다.

▪ 범용 WebRTC 미디어서버의 비효율적 구조
확장성 위주의 다층 추상화 구조로 인해 불필요한 CPU·메모리 사용과 레이턴시 증가가 발생했으며, 이러한 추상화 계층은 RTP/RTCP 레벨에서의 정밀한 미디어 제어와 고기능 SFU 구현을 제약하는 요인으로 작용했습니다.

▪ 미디어서버 원천기술 내재화 필요성
핵심 미디어 처리와 시그널링 로직을 외부 프레임워크에 의존할 경우 기술 경쟁력 확보와 장기 확장에 구조적 한계가 발생하므로, 전송 계층부터 미디어 처리·시그널링까지 End-to-End로 자체 문제 해결이 가능한 독자적인 WebRTC 미디어서버 확보가 필수적이었습니다.

■ 프로젝트 목표

▪ 고성능 미디어서버(SFU)
SFU(Selective Forwarding Unit) 방식을 채택해 서버 리소스 효율을 극대화하고, 단일 회의실 기준 최대 200명 동시 접속과 최대 49개 영상(7x7 Grid) 동시 표출을 안정적으로 지원하는 것을 목표로 했습니다.

▪ 다양한 기능 지원
화면 공유, 오디오 레벨 미터, 사용자 정의 레이아웃을 기본으로 제공하고, VAD(Voice Activity Detection) 기반 발화자 자동 화면 전환 기능과 서버사이드 화상회의 녹화 및 RTMP 재송출 기능을 구현하는 것을 목표로 했습니다.

▪ 성능 최적화
미디어 서버와 클라이언트 전반의 성능을 최적화하고 네트워크 대역폭 사용을 효율화하며, 서버와 클라이언트 간 네트워크 상태 변화에 따라 품질을 자동 조정하는 적응형 스트리밍을 구현하는 것을 목표로 했습니다.

▪ 플랫폼화
사내 서비스에 국한되지 않고 외부 판매 및 연동이 가능한 PaaS 형태의 API 및 SDK 구조를 제공하는 것을 목표로 했습니다.

■ 주안점

▪ 효율적이고 안정적인 서비스 구현을 우선하는 설계 기준
실제 서비스 환경에서 요구되는 사항을 사용자 경험과 기술 구현 가능성 관점에서 종합적으로 수집해 최우선 판단 기준으로 삼고, 불필요한 추상화나 과도한 확장 포인트처럼 성능과 안정성에 반하는 요소는 과감히 배제하는 방향으로 설계를 진행했습니다.

▪ 미디어 처리 흐름에 대한 가시성과 통제권 확보
미디어 흐름을 직접 추적·분석·제어할 수 있는 구조를 설계하여 성능 저하나 품질 이슈 발생 시 미디어 전송 및 처리 단계까지 원인을 명확히 파악할 수 있도록 하고, 예측 가능성·디버깅 용이성·운영 안정성을 핵심 기준으로 삼았습니다.

▪ 단기 구현이 아닌 장기 기술 자산화를 고려한 구조적 선택
단일 서비스 구현에 그치지 않고 플랫폼 및 PaaS 확장을 전제로 미디어서버 코어와 서비스·비즈니스 로직을 명확히 분리했으며, 특정 프레임워크나 외부 솔루션에 종속되지 않는 기술 내재화를 핵심 가치로 구조를 설계했습니다.

프로젝트 성과

글로벌 솔루션 경쟁력 확보

▸ 개발된 플랫폼이 국내 대기업의 사내 표준 화상회의 시스템으로 채택되어 실제 운영됨
▸ 내부 벤치마크 테스트 과정에서 글로벌 상용 솔루션과 비교하여 화상 품질, 연결 속도 측면에서 비교 우위를 평가 받음

PaaS 사업 모델 확장

1개 서비스를 넘어, API 및 SDK 형태의 플랫폼 비즈니스로 확장하여 기술 자산 가치를 증대시킴

핵심 기능

대규모 동시 화상회의

▸ 단일 회의실 최대 200명 동시 접속 및 최대 49개 영상(7x7 Grid) 동시 표출
▸ 적응형 미디어 스트리밍
▸ 오디오 활동 감지 기반으로 발화자를 자동 식별하고 영상 우선순위를 동적으로 제어

실시간 화면 공유 및 협업

▸ 회의 중 화면 공유를 지원하여 문서, 발표 자료, 실시간 협업이 가능한 회의 환경 제공
▸ 회의 내용을 서버 사이드에서 녹화하고 RTMP 기반으로 외부 스트리밍 플랫폼 연동 가능

프로젝트 상세

■ 개요

Google Meet 수준의 엔터프라이즈 화상회의 서비스 구축 및 PaaS 사업화를 위한 미디어 서버 플랫폼을 자체 개발했습니다.

널리 알려진 MCU/SFU 구현방법이나 기존의 WebRTC 미디어서버 오픈소스 솔루션들은 엔터프라이즈급 기능 확장성의 한계, 불필요한 Wrapper로 인한 리소스 낭비, 그리고 블랙박스 이슈로 인한 커스터마이징의 한계가 존재했습니다.

이를 극복하기 위해 Go 언어 기반의 WebRTC 스택(Pion)을 활용하여 전송 계층부터 미디어 처리, 비즈니스 로직까지 독자적으로 자체 미디어서버를 구현했습니다

■ 추진 배경

▪ 엔터프라이즈급 화상회의 원천기술 확보 및 플랫폼 사업화
200명 이상이 동시에 참여 가능한 엔터프라이즈급 화상회의 원천기술을 확보하여 내부 서비스에 우선 적용하고, 이를 기반으로 외부 고객에게 제공 가능한 PaaS 형태의 클라우드 상품으로 확장하려는 명확한 니즈가 존재했습니다. 단순 기능 구현을 넘어 대규모 동시 접속 환경에서도 안정적인 품질과 예측 가능한 성능을 보장할 수 있는 자체 미디어서버 기술을 확보함으로써, 장기적인 기술 경쟁력과 플랫폼 사업 확장을 동시에 달성하는 것을 추진 배경으로 삼았습니다.명

■ 설계 방향

▪ 범용 WebRTC 미디어 서버 한계 극복
기존 Janus, Jitsi 등 범용 WebRTC 미디어서버가 가진 추상화 중심 구조와 블랙박스화된 미디어 처리 흐름에서 벗어나, 전송 계층부터 미디어 처리·시그널링·비즈니스 로직까지 End-to-End로 가시성과 통제권을 확보하는 것을 설계의 출발점으로 삼았습니다. 이를 통해 대규모 동시 접속 환경에서도 성능 저하나 품질 이슈의 원인을 명확히 추적·분석할 수 있도록 하고, 서비스 요구사항에 따라 저수준까지 유연하게 제어 가능한 미디어서버 구조를 구현하는 것을 목표로 했습니다.

▪ 고성능 및 다기능 SFU 중심 아키텍처
대규모 화상회의 환경에서 서버 리소스 효율과 확장성을 동시에 확보하기 위해 SFU(Selective Forwarding Unit) 방식을 핵심 구조로 채택하고, 화면 공유, 사용자 정의 레이아웃, 오디오 활동 감지(VAD) 기반 발화자 중심 화면 전환 등 실제 엔터프라이즈 회의 시나리오에 필요한 다기능을 서버 구조에 자연스럽게 녹이고자 하였습니다.

▪ PaaS 확장을 고려한 플랫폼 지향 설계
단일 서비스 구현에 그치지 않고, 내부 서비스 적용 이후 외부 고객에게도 제공 가능한 PaaS 형태의 클라우드 상품화를 목표로 미디어서버 코어와 서비스·비즈니스 로직을 명확히 분리하는 구조를 설계했습니다. API 및 SDK 중심의 플랫폼 인터페이스를 제공함으로써 다양한 서비스 환경에서 유연하게 연동될 수 있도록 했으며, 특정 프레임워크나 구현 방식에 종속되지 않는 구조를 통해 장기적인 기술 자산화와 사업 확장을 동시에 고려했습니다.

■ 구현 범위 및 주요 역할

▪ 코어 엔진 아키텍처 설계 및 구현
동시 참여자 최대 200명, 동시 표출 최대 49개 영상을 안정적으로 처리할 수 있도록 고확장성·고성능 미디어서버 코어 아키텍처를 설계하고 구현했습니다. Pion(Go WebRTC Library)을 기반으로 transceiver 중심의 SFU 구조를 독자적으로 구현하여 미디어 서버의 핵심 기능을 직접 설계·개발했으며, 최신 SFU 아키텍처를 근간으로 서버 리소스 효율과 확장성을 동시에 확보했습니다.

▪ 커스텀 통신 프로토콜 및 시그널링
일반적인 WebSocket 기반 WebRTC 시그널링 구조를 넘어, 자체 서비스 환경에 최적화된 협상 과정과 보안 프로토콜을 설계·구현했습니다. WebRTC 협상 과정을 심층 분석하여 불필요한 오버헤드를 제거하고 통신 효율을 극대화했으며, 서비스 시나리오에 따라 유연하게 확장 가능한 커스텀 시그널링 방식을 적용했습니다. 또한 외부 연동과 플랫폼 확장을 고려해 PaaS 형태의 인증 및 접근 제어 구조를 자체 설계함으로써 안정성과 확장성을 동시에 확보했습니다.

▪ 고급 오디오/비디오 처리 및 사용자 경험
대규모 회의 환경에서도 직관적인 사용자 경험을 제공하기 위해 참여자별 커스텀 영상 레이아웃과 오디오 중심의 화면 표출 전략을 설계했습니다. 오디오 슬롯 기반 처리 방식을 도입하고, 음성 활동에 따라 발화자의 영상을 자동으로 우선 표출하는 알고리즘을 구현해 복잡한 회의 상황에서도 시각적 집중도를 유지할 수 있도록 했습니다. 이를 통해 다수 참여자가 존재하는 환경에서도 자연스럽고 몰입도 높은 회의 경험을 제공했습니다.

▪ 미디어 품질 최적화
클라이언트와 서버 간 네트워크 대역폭 변화에 대응하기 위해 미디어 품질 적응 로직을 구현하고, 서버 리소스 사용을 최소화하는 방향으로 전체 미디어 처리 흐름을 최적화했습니다. Simulcast 및 Layering 기법을 적용해 다중 품질 영상 스트림을 효율적으로 처리했으며, P2P와 SFU 경유 통신의 구조적 차이에서 발생하는 WebRTC 네트워크 품질 문제를 자체 구현 방식으로 해결해 안정적인 통화 품질을 확보했습니다.

▪ 인프라 구축 및 시스템 안정성 확보
다중 회의방 생성과 동시성 이슈를 안정적으로 처리하기 위해 Redis Cluster를 활용한 상태 관리 및 동시성 제어 구조를 설계해 Race Condition과 중복 생성 문제를 원천적으로 차단했습니다. 또한 TimescaleDB와 Grafana를 연동해 패킷 손실, RTT, Jitter 등 실시간 미디어 품질 메트릭을 수집·시각화하고, OpenSearch 기반 디버깅 환경을 구축해 운영 가시성을 확보했습니다. 초기 PoC 단계에서는 AWS EKS 기반 Kubernetes 환경에서 오토스케일링과 리소스 관리를 고려한 인프라 아키텍처를 설계하고 인프라 팀으로 이관했습니다.

▪ 녹화 및 재송출 시스템 구현
미디어서버의 안정성을 유지하면서 고품질 녹화와 재송출을 지원하기 위해, 실제 회의실에 하나의 참여자처럼 접속하는 독립적인 녹화 프로세스를 설계했습니다. CEF(Chromium Embedded Framework) 기반의 Headless Client 아키텍처를 도입해 서버 사이드에서 화면과 오디오를 렌더링하고 녹화 및 RTMP 재송출을 수행했으며, 클라이언트 화면과 동일한 형태의 합성 결과물을 안정적으로 생성하는 창의적인 녹화 구조를 구현했습니다.

▪ 기술 리딩
기획 단계에서 Vue.js 기반 웹 클라이언트 PoC를 선행 개발해 프론트엔드 팀의 개발 가이드라인을 제시했으며, 안드로이드 WebRTC 라이브러리 소스 레벨 분석을 통해 모바일 환경에서 발생하는 이슈 해결과 최적화 방향을 리딩했습니다. 또한 외부 개발자가 쉽게 연동할 수 있는 직관적인 PaaS API 및 SDK 구조를 설계해 플랫폼 확장성과 개발 생산성을 동시에 확보하며, 프로젝트 전반에서 기술적 의사결정과 방향성을 주도했습니다.

■ 결과

▪ 글로벌 솔루션 수준의 기술 경쟁력 확보
자체 개발한 WebRTC 기반 미디어서버 플랫폼을 국대 대기업 사내 표준 화상회의 서비스에 적용하여 실제 운영 환경에서 활용했으며, 대규모 동시 접속 시나리오에서도 안정적인 품질과 예측 가능한 성능을 입증했습니다. 내부 벤치마크 테스트 과정에서 글로벌 상용 화상회의 솔루션과 비교해 화상 품질과 연결 안정성, 초기 접속 속도 측면에서 경쟁력 있는 평가를 받았습니다.

▪ PaaS 사업 모델 확장을 통한 기술 자산화
단일 서비스 구현에 그치지 않고, 미디어서버 코어를 API 및 SDK 형태의 플랫폼 구조로 확장하여 다양한 서비스에 재사용 가능한 기술 자산으로 내재화했으며, 향후 클라우드 기반 PaaS 상품으로 확장 가능한 기반을 확보했습니다.