Quienes trabajan en contenido AIGC saben que crear buenas imágenes es fácil, pero encontrar el sonido adecuado es otra historia. Una serie de cómics generada con IA puede tener viñetas espectaculares, pero añadir los efectos de sonido siempre ha sido el cuello de botella: o se compran sonidos con licencia en bancos de audio, o se graban y editan manualmente, lo cual es lento, costoso y no siempre queda bien. En marzo de 2026, Sony AI lanzó oficialmente como código abierto el modelo de generación de efectos de sonido Woosh, resolviendo este problema de raíz.
¿Qué es Woosh exactamente?
Woosh es el modelo base de efectos de sonido (Sound Effects Foundation Model) desarrollado por Sony AI. El 16 de marzo de 2026 se publicaron en GitHub tanto el código de inferencia como los pesos del modelo. No es un modelo monolítico, sino un sistema completo de generación de efectos de sonido compuesto por cuatro módulos que trabajan en conjunto, con dos capacidades principales: generar efectos de sonido a partir de descripciones de texto y añadir audio automáticamente a videos.
En pocas palabras: introduces una descripción como "truenos lejanos y gotas de lluvia cayendo sobre un techo de lámina", y Woosh genera el archivo de audio correspondiente de alta calidad. O le entregas un video sin sonido, y el sistema analiza automáticamente el contenido visual para generar sonidos que lo acompañen: pasos, motor de un automóvil, corriente de agua, cristales rompiéndose... todo lo puede manejar.

Cada módulo cumple su función
La arquitectura de Woosh es muy elegante y se compone de cuatro módulos especializados:
Woosh-AE es el codificador-decodificador de audio. Se encarga de convertir la onda de audio original en una representación latente de alta fidelidad y luego reconstruirla como audio de calidad superior. Utiliza una arquitectura VOCOS mejorada que predice directamente la parte real e imaginaria de la transformada corta de Fourier compleja, evitando la pérdida de calidad que provocan los métodos de discretización tradicionales. En el conjunto de pruebas AudioCaps, su distancia de espectrograma Mel es un 85% menor que la de StableAudio-Open, y la distancia de la transformada corta de Fourier es un 23% menor.
Woosh-CLAP es el módulo de condicionamiento textual. Comprende las descripciones en lenguaje natural y las convierte en embeddings semánticos que guían la generación de los efectos de sonido. El codificador de texto usa RoBERTa-Large (355 millones de parámetros) y el codificador de audio usa PaSST (86 millones de parámetros). El equipo de investigación descubrió un hallazgo clave: un modelo entrenado con una base de datos profesional de efectos de sonido logra una tasa de recuperación texto-audio 248% mayor en conjuntos de pruebas profesionales que uno entrenado con datos públicos, lo que demuestra que la calidad de los datos específicos del dominio determina el techo de la calidad generada.
Woosh-Flow es el generador principal, basado en una arquitectura de modelo de difusión por coincidencia de flujo, con un Transformer multimodal de 12 capas en su interior. Aún más práctica es su versión destilada, Woosh-DFlow, que emplea la técnica de destilación MeanFlow para comprimir los pasos de generación de decenas a solo 4, logrando velocidades cercanas a tiempo real en hardware convencional, mientras mantiene más del 90% de la calidad del modelo original.
Woosh-VFlow es el módulo más emocionante: el generador de audio a partir de video. Usa el modelo SynchFormer para extraer características del video a 24 cuadros por segundo y generar automáticamente efectos de sonido sincronizados con la imagen. Para resolver el problema de la alineación audiovisual imprecisa en los datos de entrenamiento, el equipo utilizó el modelo de lenguaje de audio Qwen3-Omni para regenerar descripciones de audio precisas para los datos de video, un enfoque de limpieza de datos muy interesante.
¿Cómo se compara con las soluciones existentes?
Woosh supera a los principales modelos de generación de audio de código abierto en múltiples métricas. En la dirección de texto a audio, la distancia de Fréchet de Woosh-Flow es un 17% menor que la de TangoFlux y un 27% menor que la de StableAudio-Open; el puntaje CLAP de coincidencia semántica es un 6% mayor que el de TangoFlux y un 150% mayor que el de StableAudio-Open. En la dirección de video a audio, Woosh-VFlow logra una distancia de Fréchet un 21% menor que MMAudio-M en el conjunto de pruebas FoleyBench, y además utiliza un 33% menos de parámetros.
¿Qué significa esto? Los efectos de sonido generados son más realistas, coinciden mejor con la descripción textual, se producen más rápido y el modelo es más ligero. Para los equipos de producción AIGC que necesitan generar efectos de sonido en lote, la mejora de eficiencia es muy tangible.

Valor real para la producción de AIGC
En el flujo de trabajo de producción de contenido AIGC, Woosh resuelve varios problemas de larga data. En la producción de cómics con IA, cada episodio necesita numerosos efectos ambientales y de acción; el enfoque tradicional es buscarlos uno por uno en bancos de sonidos, pero ahora se pueden generar en lote directamente desde descripciones textuales. En la producción de anuncios publicitarios con IA, los videos de exhibición de productos requieren efectos de sonido a juego, y Woosh-VFlow puede analizar el video y añadir el audio automáticamente, eliminando el tiempo de selección y sincronización manual. Los creadores de contenido en video corto se benefician aún más, ya que pueden obtener efectos de sonido de calidad cinematográfica sin necesitar conocimientos profesionales de audio.
Actualmente, el código de Woosh se distribuye bajo las licencias MIT y Apache 2.0, y los pesos del modelo bajo la licencia CC-BY-NC (solo uso no comercial). Si necesitas usarlo con fines comerciales, habrá que estar atento a si Sony habilita la autorización comercial más adelante. Aun así, el código abierto y las soluciones técnicas ya han establecido un nuevo referente para todo el campo del audio AIGC, y la comunidad puede desarrollar modelos verticales más especializados sobre esta base.
Cómo empezar a usarlo
Woosh ofrece dos formas de despliegue: una interfaz de demostración web con Gradio y un servidor API, por lo que la barrera de entrada para desarrolladores no es alta. El repositorio en GitHub es SonyResearch/Woosh, y el informe técnico está disponible en arXiv (número 2604.01929). Si tu flujo de trabajo AIGC necesita capacidad de generación de efectos de sonido en lote, te recomendamos probar este modelo; actualmente es una de las pocas soluciones de generación de efectos de sonido de código abierto disponibles.