资讯中心 2026-05-30 14:26 448 次阅读

ComfyUI接入Woosh音效生成：从安装到出片的完整工作流指南

手把手教你在ComfyUI中安装和使用索尼AI开源音效模型Woosh，实现文本生成音效和视频自动配音，含模型下载、节点配置、显存优化及常见问题排查。

上一篇我们介绍了索尼AI开源的Woosh音效生成模型有多强，很多朋友问：ComfyUI里能不能直接用？答案是可以，而且已经有人做好了现成的节点包。今天就来讲讲怎么在ComfyUI里把Woosh跑起来，从安装到出片一步到位。

ComfyUI-Woosh节点包是什么

ComfyUI-Woosh是开发者Saganaki22发布在GitHub上的自定义节点包，把索尼AI的Woosh基础模型封装成了ComfyUI原生节点。装好之后你可以在ComfyUI工作流里直接实现文本生成音效和视频自动配音，不用写一行代码。整个节点包提供四个核心节点，覆盖了从模型加载到音频输出的完整链路。

两种安装方式

方式一：ComfyUI Manager安装（推荐）打开ComfyUI Manager，搜索"Woosh"，点击安装，重启ComfyUI即可。这是最省心的方式，依赖项会自动处理。

方式二：手动安装进入ComfyUI的自定义节点目录，执行git clone https://github.com/saganaki22/ComfyUI-Woosh.git，然后pip install -r ComfyUI-Woosh/requirements.txt安装依赖，最后重启ComfyUI。手动安装的好处是可以指定版本，适合需要稳定环境的生产场景。

下载模型文件

节点装好后还需要下载模型权重。去HuggingFace上的drbaph/Woosh仓库，把模型文件下载到ComfyUI/models/woosh/目录下。必须下载的有三个：Woosh-AE（音频编解码器）、TextConditionerA（文本T2A条件器）和TextConditionerV（文本V2A条件器）。生成模型按需下载，四选一或全下都行。

如果你在国内遇到HuggingFace下载失败的问题，启动ComfyUI前设置环境变量set HF_ENDPOINT=https://hf-mirror.com就能走镜像源。首次下载后模型会缓存在models/woosh/hf_cache/目录，后续不用重复下载。

ComfyUI接入Woosh音效生成：从安装到出片的完整工作流指南

四个核心节点详解

Woosh Model Loader是模型加载节点，两个关键参数：model_name选择你下载的模型文件夹，model_type选择模型类型。模型类型有四种：Flow（基础文本转音频，质量最佳）、DFlow（蒸馏版，4步出结果，速度快10倍以上）、VFlow（基础视频转音频）、DVFlow（蒸馏版视频转音频）。

Woosh Sampler是核心生成节点。prompt参数填写声音的文字描述，比如"雷声滚动伴随雨滴落在铁皮屋顶上"。steps控制采样步数，Flow/VFlow建议50步，DFlow/DVFlow只需4步。cfg是引导强度，基础模型用4.5，蒸馏模型用3.5。latent_frames控制音频时长，100帧约等于1秒，默认501帧大约5秒。seed设0就是随机，固定数值可以复现结果。

Woosh Video Loader负责加载视频文件。video_path填视频路径，max_duration_s限制最大时长（默认8秒），也支持直接接收图像批次作为视频输入。这个节点在视频转音频工作流中是必备的。

Woosh TextConditioning加载CLAP文本条件处理器，mode参数必须和任务匹配：做文本转音频选T2A，做视频转音频选V2A。选错了会报错或者生成结果不对，这是新手最容易踩的坑。

两种工作流搭建

文本转音频工作流：Woosh Model Loader（选Flow或DFlow）连接Woosh Sampler，Sampler的prompt写文字描述，输出就是AUDIO格式的音频。可以直接接ComfyUI的Save Audio节点保存为文件。

ComfyUI接入Woosh音效生成：从安装到出片的完整工作流指南

视频转音频工作流：Woosh Video Loader加载视频，连接Woosh Model Loader（选VFlow或DVFlow），再接Woosh Sampler。Sampler会同时输出video_frames（图像批次）和audio（音频）。如果要把音画合成为成品视频，需要额外安装ComfyUI-VideoHelperSuite节点包，用VideoCombine节点把帧和音频合并输出MP4。

ComfyUI接入Woosh音效生成：从安装到出片的完整工作流指南

显存优化策略

Woosh模型对显存有一定要求。Flow和VFlow需要8到12GB显存，DFlow和DVFlow降到4到6GB。如果你显存紧张，三个办法：第一，在Woosh Sampler上开启force_offload选项，运行完自动把模型从显存卸载到内存，显存占用可以降到2到4GB；第二，直接用蒸馏模型DFlow/DVFlow，不仅显存低，速度也快很多；第三，减少latent_frames数值，比如从501改成301，音频时长从5秒缩到3秒，显存占用也会下降。

常见问题

安装后报"Error loading state_dict in strict mode"不用慌，这属于正常现象，非严格模式加载可以正常工作。如果RoBERTa模型每次重启都重新下载，那是HuggingFace的缓存机制问题，第一次下载完后续会走本地缓存。完全重启ComfyUI可以解决大部分导入错误。更多细节可以参考GitHub仓库的README和issue区。

Woosh的接入让ComfyUI工作流补齐了音频生成这块短板。以前做AIGC内容，画面和声音是两条线分开处理的，现在全链路都能在ComfyUI里一站式完成。对于AI漫剧、AI广告、短视频创作者来说，这个工作流整合的意义比单独用Woosh命令行要大得多。

发布于 2026年05月30日

标签： AI漫剧 AI广告

ComfyUI接入Woosh音效生成：从安装到出片的完整工作流指南

ComfyUI-Woosh节点包是什么

两种安装方式

下载模型文件

四个核心节点详解

两种工作流搭建

显存优化策略

常见问题

相关文章

AIGC内容定制

热门资讯

优秀案例