이전 글에서 Sony AI가 오픈소스로 공개한 Woosh 음향 효과 생성 모델의 성능을 소개해 드렸는데요, 많은 분들이 "ComfyUI에서 바로 사용할 수 있나요?"라고 문의하셨습니다. 결론부터 말씀드리면, 가능합니다. 이미 완성된 노드 패키지도 나와 있습니다. 오늘은 ComfyUI에서 Woosh를 설치하고 실행하는 방법을 단계별로 설명드리겠습니다.
ComfyUI-Woosh 노드 패키지란?
ComfyUI-Woosh는 개발자 Saganaki22가 GitHub에 배포한 커스텀 노드 패키지로, Sony AI의 Woosh 기본 모델을 ComfyUI 네이티브 노드로 래핑한 것입니다. 설치하면 ComfyUI 워크플로우에서 텍스트 기반 음향 생성과 영상 자동 더빙을 코드 작성 없이 바로 구현할 수 있습니다. 이 노드 패키지는 모델 로딩부터 오디오 출력까지의 전체 파이프라인을 아우르는 4개의 핵심 노드를 제공합니다.

두 가지 설치 방법
방법 1: ComfyUI Manager로 설치 (권장)ComfyUI Manager를 열고 "Woosh"를 검색한 뒤 설치를 클릭하고 ComfyUI를 재시작하면 됩니다. 가장 간편한 방법이며, 의존성 항목이 자동으로 처리됩니다.
방법 2: 수동 설치ComfyUI의 커스텀 노드 디렉토리로 이동하여 git clone https://github.com/saganaki22/ComfyUI-Woosh.git을 실행한 뒤, pip install -r ComfyUI-Woosh/requirements.txt로 의존성을 설치하고 ComfyUI를 재시작합니다. 수동 설치의 장점은 특정 버전을 지정할 수 있어 안정적인 환경이 필요한 프로덕션 환경에 적합합니다.
모델 파일 다운로드
노드 설치 후에는 모델 가중치를 다운로드해야 합니다. HuggingFace의 drbaph/Woosh 저장소에서 모델 파일을 ComfyUI/models/woosh/ 디렉토리에 다운로드하세요. 반드시 필요한 파일은 세 가지입니다: Woosh-AE(오디오 코덱), TextConditionerA(텍스트 T2A 조건기) 및 TextConditionerV(텍스트 V2A 조건기). 생성 모델은 필요에 따라 다운로드하면 되며, 4개 중 하나를 선택하거나 모두 다운로드할 수 있습니다.
국내에서 HuggingFace 다운로드가 실패하는 경우, ComfyUI를 시작하기 전에 환경 변수 set HF_ENDPOINT=https://hf-mirror.com를 설정하면 미러 소스를 통해 다운로드할 수 있습니다. 최초 다운로드 후 모델은 models/woosh/hf_cache/ 디렉토리에 캐시되므로 이후에는 다시 다운로드할 필요가 없습니다.

4개 핵심 노드 상세 설명
Woosh Model Loader는 모델 로딩 노드로, 두 가지 핵심 파라미터가 있습니다. model_name은 다운로드한 모델 폴더를 선택하고, model_type은 모델 유형을 선택합니다. 모델 유형은 네 가지입니다: Flow(기본 텍스트-오디오 변환, 품질 최우선), DFlow(증류 버전, 4스텝으로 결과 생성, 10배 이상 빠름), VFlow(기본 비디오-오디오 변환), DVFlow(증류 버전 비디오-오디오 변환).
Woosh Sampler는 핵심 생성 노드입니다. prompt 파라미터에 소리에 대한 텍스트 설명을 입력합니다. 예를 들어 "천둥이 굴러가는 소리와 함께 빗방울이 양철 지붕에 떨어지는 소리" 등입니다. steps는 샘플링 스텝 수를 제어하며, Flow/VFlow는 50스텝, DFlow/DVFlow는 4스텝만 필요합니다. cfg는 가이던스 강도로, 기본 모델은 4.5, 증류 모델은 3.5를 사용합니다. latent_frames는 오디오 길이를 제어하며, 100프레임은 약 1초에 해당하고 기본값인 501프레임은 약 5초입니다. seed를 0으로 설정하면 랜덤이며, 고정 값을 지정하면 결과를 재현할 수 있습니다.
Woosh Video Loader는 영상 파일을 로딩하는 노드입니다. video_path에 영상 경로를 입력하고, max_duration_s로 최대 길이를 제한합니다(기본 8초). 이미지 배치를 직접 영상 입력으로 전달하는 것도 지원합니다. 이 노드는 비디오-오디오 변환 워크플로우에서 필수적입니다.
Woosh TextConditioning은 CLAP 텍스트 조건 프로세서를 로딩하는 노드입니다. mode 파라미터는 반드시 작업 유형과 일치해야 합니다. 텍스트-오디오 변환 시 T2A를, 비디오-오디오 변환 시 V2A를 선택하세요. 잘못 선택하면 오류가 발생하거나 결과가 부정확하게 나올 수 있으며, 초보자가 가장 많이 하는 실수입니다.
두 가지 워크플로우 구성
텍스트-오디오 변환 워크플로우: Woosh Model Loader(Flow 또는 DFlow 선택)를 Woosh Sampler에 연결합니다. Sampler의 prompt에 텍스트 설명을 입력하면 AUDIO 형식의 오디오가 출력됩니다. ComfyUI의 Save Audio 노드에 연결하여 파일로 저장할 수 있습니다.

비디오-오디오 변환 워크플로우: Woosh Video Loader로 영상을 로딩하고, Woosh Model Loader(VFlow 또는 DVFlow 선택)에 연결한 뒤 Woosh Sampler를 연결합니다. Sampler는 video_frames(이미지 배치)와 audio(오디오)를 동시에 출력합니다. 음향과 영상을 하나의 완성된 영상으로 합성하려면 ComfyUI-VideoHelperSuite 노드 패키지를 추가 설치하여 VideoCombine 노드로 프레임과 오디오를 합쳐 MP4로 출력해야 합니다.

VRAM 최적화 전략
Woosh 모델은 일정 수준의 VRAM을 필요로 합니다. Flow와 VFlow는 8~12GB, DFlow와 DVFlow는 4~6GB가 필요합니다. VRAM이 부족한 경우 세 가지 방법이 있습니다. 첫째, Woosh Sampler에서 force_offload 옵션을 활성화하면 실행 완료 후 모델이 자동으로 VRAM에서 메모리로 해제되어 VRAM 사용량을 2~4GB까지 낮출 수 있습니다. 둘째, 증류 모델 DFlow/DVFlow를 사용하면 VRAM 사용량이 낮을 뿐만 아니라 속도도 훨씬 빠릅니다. 셋째, latent_frames 값을 줄이면 됩니다. 예를 들어 501에서 301로 줄이면 오디오 길이가 5초에서 3초로 짧아지면서 VRAM 사용량도 감소합니다.
자주 묻는 질문
설치 후 "Error loading state_dict in strict mode" 오류가 발생하더라도 당황하지 마세요. 이는 정상적인 현상이며, 비스트릭트 모드로 로딩하면 정상 작동합니다. RoBERTa 모델이 재시작할 때마다 다시 다운로드되는 경우는 HuggingFace의 캐시 메커니즘 문제이며, 최초 다운로드 완료 후에는 로컬 캐시를 사용합니다. ComfyUI를 완전히 재시작하면 대부분의 임포트 오류를 해결할 수 있습니다. 보다 자세한 내용은 GitHub 저장소의 README와 이슈 섹션을 참고하세요.
Woosh 연동으로 ComfyUI 워크플로우에 오디오 생성이라는 부족한 부분이 채워졌습니다. 기존에는 AIGC 콘텐츠 제작 시 영상과 음향을 별도로 처리해야 했지만, 이제는 전체 파이프라인을 ComfyUI에서 원스톱으로 완성할 수 있습니다. AI 만화 드라마, AI 광고, 숏폼 영상 크리에이터에게 이 워크플로우 통합은 Woosh를 명령줄로单独 사용하는 것보다 훨씬 큰 의미를 갖습니다.