Centro de noticias 2026-05-30 14:26 104 vistas

ComfyUI integrado con Woosh: guía completa del flujo de trabajo para generar efectos de sonido con IA

Aprende paso a paso a instalar y usar Woosh, el modelo de Sony AI para efectos de sonido, en ComfyUI. Genera audio desde texto y dobla videos automáticamente. Incluye descarga de modelos, nodos, optimización de VRAM y solución de errores.

En el artículo anterior te contamos lo potente que es el modelo Woosh de generación de efectos de sonido de Sony AI, y muchos nos preguntaron: ¿se puede usar directamente en ComfyUI? La respuesta es sí, y ya hay un paquete de nodos listo para usar. Hoy te explicamos cómo poner Woosh a funcionar en ComfyUI, desde la instalación hasta la producción final.

¿Qué es el paquete de nodos ComfyUI-Woosh?

ComfyUI-Woosh es un paquete de nodos personalizados publicado en GitHub por el desarrollador Saganaki22. Envuelve el modelo base Woosh de Sony AI como nodos nativos de ComfyUI. Una vez instalado, puedes implementar generación de efectos de sonido a partir de texto y adición automática de audio a videos directamente en tu flujo de trabajo de ComfyUI, sin escribir una sola línea de código. El paquete incluye cuatro nodos principales que cubren toda la cadena, desde la carga del modelo hasta la salida de audio.

ComfyUI integrado con Woosh: guía completa del flujo de trabajo para generar efectos de sonido con IA

Dos formas de instalarlo

Opción 1: Instalación desde ComfyUI Manager (recomendada) Abre ComfyUI Manager, busca "Woosh", haz clic en instalar y reinicia ComfyUI. Es la forma más sencilla; las dependencias se gestionan automáticamente.

Opción 2: Instalación manual Entra al directorio de nodos personalizados de ComfyUI y ejecuta git clone https://github.com/saganaki22/ComfyUI-Woosh.git. Luego instala las dependencias con pip install -r ComfyUI-Woosh/requirements.txt y reinicia ComfyUI. La instalación manual permite elegir una versión específica, ideal para entornos de producción que requieren estabilidad.

Descargar los archivos del modelo

Una vez instalados los nodos, necesitas descargar los pesos del modelo. Ve al repositorio drbaph/Woosh en HuggingFace y descarga los archivos al directorio ComfyUI/models/woosh/. Hay tres archivos imprescindibles: Woosh-AE (códec de audio), TextConditionerA (condicionador de texto para T2A) y TextConditionerV (condicionador de texto para V2A). Los modelos de generación se descargan según necesites: puedes elegir uno de los cuatro o descargarlos todos.

Si tienes problemas para descargar desde HuggingFace, configura la variable de entorno set HF_ENDPOINT=https://hf-mirror.com antes de iniciar ComfyUI para usar el espejo de descarga. Después de la primera descarga, los modelos se almacenan en caché en models/woosh/hf_cache/ y no será necesario descargarlos de nuevo.

ComfyUI integrado con Woosh: guía completa del flujo de trabajo para generar efectos de sonido con IA

Descripción detallada de los cuatro nodos principales

Woosh Model Loader es el nodo de carga del modelo, con dos parámetros clave: model_name para seleccionar la carpeta del modelo descargado y model_type para elegir el tipo. Hay cuatro tipos de modelo: Flow (texto a audio básico, con la mejor calidad), DFlow (versión destilada, produce resultados en 4 pasos, más de 10 veces más rápido), VFlow (video a audio básico) y DVFlow (versión destilada de video a audio).

Woosh Sampler es el nodo central de generación. En el parámetro prompt escribes una descripción textual del sonido, por ejemplo "truenos con gotas de lluvia cayendo sobre un techo de chapa". Steps controla los pasos de muestreo: se recomiendan 50 pasos para Flow/VFlow, y solo 4 para DFlow/DVFlow. Cfg es la intensidad de guía: 4.5 para modelos base y 3.5 para modelos destilados. Latent_frames controla la duración del audio; 100 fotogramas equivalen a aproximadamente 1 segundo, y el valor predeterminado de 501 fotogramas son unos 5 segundos. Con seed en 0 el resultado es aleatorio; con un valor fijo se puede reproducir.

Woosh Video Loader se encarga de cargar archivos de video. En video_path se indica la ruta del video y max_duration_s limita la duración máxima (8 segundos por defecto). También admite recibir lotes de imágenes directamente como entrada de video. Este nodo es indispensable en los flujos de trabajo de video a audio.

Woosh TextConditioning carga el procesador de condicionamiento de texto CLAP. El parámetro mode debe coincidir con la tarea: elige T2A para texto a audio o V2A para video a audio. Si eliges mal, obtendrás errores o resultados incorrectos; este es el error más común entre los principiantes.

Configuración de dos flujos de trabajo

Flujo de trabajo de texto a audio: Conecta Woosh Model Loader (con Flow o DFlow) a Woosh Sampler. En el prompt del Sampler escribes la descripción textual y la salida será audio en formato AUDIO. Puedes conectarlo directamente al nodo Save Audio de ComfyUI para guardarlo como archivo.

ComfyUI integrado con Woosh: guía completa del flujo de trabajo para generar efectos de sonido con IA

Flujo de trabajo de video a audio: Carga el video con Woosh Video Loader, conéctalo a Woosh Model Loader (con VFlow o DVFlow) y luego a Woosh Sampler. El Sampler producirá tanto video_frames (lotes de imágenes) como audio. Si necesitas combinar audio e imagen en un video final, deberás instalar además el paquete de nodos ComfyUI-VideoHelperSuite y usar el nodo VideoCombine para fusionar los fotogramas con el audio y exportar un MP4.

ComfyUI integrado con Woosh: guía completa del flujo de trabajo para generar efectos de sonido con IA

Estrategias de optimización de VRAM

Los modelos Woosh tienen ciertos requisitos de memoria de video. Flow y VFlow necesitan entre 8 y 12 GB de VRAM, mientras que DFlow y DVFlow reducen ese consumo a entre 4 y 6 GB. Si tienes poca VRAM, hay tres soluciones: primero, activa la opción force_offload en Woosh Sampler para que el modelo se descargue automáticamente de la VRAM a la memoria del sistema al finalizar la ejecución, reduciendo el uso a 2-4 GB; segundo, utiliza directamente los modelos destilados DFlow/DVFlow, que no solo consumen menos VRAM sino que también son mucho más rápidos; tercero, reduce el valor de latent_frames, por ejemplo de 501 a 301, lo que acorta el audio de 5 a 3 segundos y disminuye el consumo de VRAM.

Preguntas frecuentes

Si tras la instalación aparece el error "Error loading state_dict in strict mode", no te preocupes: es normal y la carga en modo no estricto funciona correctamente. Si el modelo RoBERTa se vuelve a descargar cada vez que reinicias, es un problema del mecanismo de caché de HuggingFace; después de la primera descarga se usará la caché local. Reiniciar ComfyUI por completo resuelve la mayoría de errores de importación. Para más detalles, consulta el archivo README y la sección de issues del repositorio en GitHub.

La integración de Woosh completa la pieza que le faltaba a los flujos de trabajo de ComfyUI: la generación de audio. Antes, al crear contenido AIGC, imagen y sonido se procesaban por separado; ahora toda la cadena puede completarse de principio a fin dentro de ComfyUI. Para creadores de cómics con IA, publicidad con IA y videos cortos, esta integración tiene mucho más valor que usar Woosh desde la línea de comandos.

Publicado: 2026-05-30