AIGC 콘텐츠를 다루는 분들은 아시겠지만, 영상은 만들기 쉬운데 소리는 맞추기 어렵습니다. AI漫剧이 정교한 분镜画面을 생성해도 음향 효과를 입히는 것은 항상 병목이었습니다. 소재 사이트에서 저작권 음향 효과를 구매하거나, 직접 녹음 후반 작업을 해야 하는데 시간과 노력이 많이 들고 매칭도 보장되지 않습니다. 2026년 3월, 소니 AI가 Woosh 음향 효과 생성 모델을 정식 오픈소스로 공개하면서 이痛点을 해결했습니다.
Woosh란 무엇인가
Woosh는 소니 AI가 개발한 음향 효과 기초 모델(Sound Effects Foundation Model)로, 2026년 3월 16일 GitHub에推理 코드와 모델 가중치를 공개했습니다. 단일 모델이 아니라 네 개 모듈이协同作用하는 완전한 음향 효과 생성 시스템이며, 핵심 역할은 두 가지입니다: 텍스트 설명 기반 음향 효과 생성과 영상 자동 더빙.
간단히 말해, "천둥 소리가 울리고 빗방울이 철판 지붕에 떨어지는 소리" 같은 텍스트 설명을 입력하면 Woosh가 해당하는 고품질 음향 효과 파일을 생성합니다. 또는 영상이 없는 영상을 넣으면 화면 내용을 자동 분석하여 맞는 소리를 생성합니다. 발걸음 소리, 자동차 엔진 소리, 물 흐르는 소리, 유리 깨지는 소리 등 모두 처리 가능합니다.

네 개 모듈, 각자의 역할
Woosh의 아키텍처는 매우 정교하며 네 개의 전문 모듈로 구성됩니다:
Woosh-AE는 오디오 인코더·디코더로, 원본 오디오 파형을 고충실도 잠재 표현으로 변환한 뒤 다시 고품질 오디오로 복원합니다. 개선된 VOCOS 아키텍처를 채택하여 복소수 단시간 푸리에 변환(STFT)의 실수부와 허수부를 직접 예측하여 기존 이산화 방법으로 인한 음질 손실을 방지합니다. AudioCaps 테스트 세트에서 멜 스펙트럼 거리가 StableAudio-Open보다 85% 낮고, STFT 거리가 23% 낮습니다.
Woosh-CLAP는 텍스트 조건화 모듈로, 인간의 자연어 설명을 이해하고 의미 임베딩으로 변환하여 음향 효과 생성을 지도합니다. 텍스트 인코더는 RoBERTa-Large(3.55억 파라미터), 오디오 인코더는 PaSST(8,600만 파라미터)를 사용합니다. 연구팀은 핵심 결론을 도출했습니다: 전문 음향 효과 라이브러리로 학습한 모델이 전문 테스트 세트에서 텍스트-오디오 재현율이 공개 데이터셋으로 학습한 모델보다 248% 높으며, 이는 도메인 데이터 품질이 생성 효과의 상한을 결정한다는 것을 의미합니다.
Woosh-Flow는 핵심 생성기로, 흐름 매칭 기반 확산 모델 아키텍처를 사용하며 내부는 12층 멀티모달 Transformer입니다. 더 실용적인 것은 증류 버전인 Woosh-DFlow로, MeanFlow 증류 기술을 활용하여 생성 단계를 수십 단계에서 4단계로 압축합니다. 일반 소비자용 하드웨어에서 거의 실시간 속도를 구현하면서 원본 모델의 90% 이상의 생성 품질을 유지합니다.
Woosh-VFlow는 가장令人振奋하는 모듈입니다. 영상-오디오 생성기로, SynchFormer 모델로 초당 24프레임으로 영상 특징을 추출한 뒤 화면에 동기화된 음향 효과를 자동 생성합니다. 학습 데이터의 시청각 정렬이 부정확한 문제를 해결하기 위해, 연구팀은 Qwen3-Omni 오디오 언어 모델로 영상 데이터에 대한 정밀한 오디오 설명을 재생성했습니다. 이 데이터清洗思路는借鉴할 만합니다.
기존 솔루션과 비교하면 어떤가
Woosh는 여러 지표에서 현재 주류 오픈소스 오디오 생성 모델을 초월합니다. 텍스트-오디오 분야에서 Woosh-Flow의 Fréchet 거리가 TangoFlux보다 17% 낮고, StableAudio-Open보다 27% 낮습니다. 의미 매칭도인 CLAP 점수가 TangoFlux보다 6% 높고, StableAudio-Open보다 150% 높습니다. 영상-오디오 분야에서 Woosh-VFlow는 FoleyBench 데이터셋에서 Fréchet 거리가 MMAudio-M 모델보다 21% 낮고, 파라미터 수도 33% 적습니다.
이것이 의미하는 바는 무엇일까요? 생성된 음향 효과가 더真实하고, 텍스트 설명과 더 일치하며, 속도가 더 빠르고, 모델이 더 경량입니다. 대량 음향 효과 생성이 필요한 AIGC 제작 팀에게 효율 향상은实实在在한 것입니다.

AIGC 제작에 실질적 가치
AIGC 콘텐츠 제작의 실무 워크플로우에서 Woosh는 오랫동안 존재했던 몇 가지 문제를 해결합니다. AI漫剧 제작에서는 1편당大量의环境音效와 액션音效가 필요한데, 기존에는 음향 효과 라이브러리에서 하나씩 검색·다운로드해야 했지만 이제 텍스트 설명으로 대량 생성합니다. AI 광고 영상 제작에서는 제품 시연 영상에 맞는 음향 효과가 필요한데, Woosh-VFlow가 화면을 자동 분석하고 더빙하여人工 선별 및 정렬 시간을 절약합니다. 숏폼 콘텐츠 창작자들이 더 큰 혜택을 받는데, 전문 오디오 지식 없이도 영화급 음향 효과 품질을 얻을 수 있습니다.
현재 Woosh의 코드는 MIT 및 Apache 2.0 라이선스를 채택하고 있으며, 모델 가중치는 CC-BY-NC 라이선스(비상업적 용도에 한함)를 사용합니다. 상업적 용도의 경우 소니가 향후 상업 라이선스를开放할지 여부를关注해야 합니다. 하지만即便如此, 오픈소스 코드와 기술 방안이 이미 AIGC 오디오 분야 전반에新的技术基准을树立했으며, 社区는 이를 기반으로更专业的垂直场景模型을 개발할 수 있습니다.
어떻게 사용하나
Woosh는 Gradio 웹 데모 인터페이스와 API 서버两种 배포方式을 제공하여, 개발자에게接入门槛이 높지 않습니다. GitHub 저장소 주소는 SonyResearch/Woosh이며, 기술 보고서는 arXiv에서 찾을 수 있습니다(编号 2604.01929). AIGC 워크플로우에 대량 음향 효과 생성能力이 필요하다면 이 모델을强烈推荐합니다. 현재 오픈소스 분야에서 음향 효과生成方案이 많지 않기 때문입니다.