資訊中心 2026-05-30 14:26 105 次閱讀

ComfyUI接入Woosh音效生成：從安裝到出片的完整工作流指南

手把手教你在ComfyUI中安裝和使用索尼AI開源音效模型Woosh，實現文字生成音效和影片自動配音，含模型下載、節點設定、顯示記憶體最佳化及常見問題排查。

上一篇我們介紹了索尼AI開源的Woosh音效生成模型有多強，很多朋友問：ComfyUI裡能不能直接用？答案是可以，而且已經有人做好了現成的節點包。今天就來講講怎麼在ComfyUI裡把Woosh跑起來，從安裝到出片一步到位。

ComfyUI-Woosh節點包是什麼

ComfyUI-Woosh是開發者Saganaki22發布在GitHub上的自訂節點包，把索尼AI的Woosh基礎模型封裝成了ComfyUI原生節點。裝好之後你可以在ComfyUI工作流裡直接實現文字生成音效和影片自動配音，不用寫一行程式碼。整個節點包提供四個核心節點，覆蓋了從模型載入到音訊輸出的完整鏈路。

兩種安裝方式

方式一：ComfyUI Manager安裝（推薦）打開ComfyUI Manager，搜尋"Woosh"，點擊安裝，重啟ComfyUI即可。這是最省心的方式，相依性會自動處理。

方式二：手動安裝進入ComfyUI的自訂節點目錄，執行git clone https://github.com/saganaki22/ComfyUI-Woosh.git，然後pip install -r ComfyUI-Woosh/requirements.txt安裝相依性，最後重啟ComfyUI。手動安裝的好處是可以指定版本，適合需要穩定環境的生產場景。

下載模型檔案

節點裝好後還需要下載模型權重。去HuggingFace上的drbaph/Woosh倉庫，把模型檔案下載到ComfyUI/models/woosh/目錄下。必須下載的有三個：Woosh-AE（音訊編解碼器）、TextConditionerA（文字T2A條件器）和TextConditionerV（文字V2A條件器）。生成模型按需下載，四選一或全下都行。

如果你在國內遇到HuggingFace下載失敗的問題，啟動ComfyUI前設定環境變數set HF_ENDPOINT=https://hf-mirror.com就能走鏡像源。首次下載後模型會快取在models/woosh/hf_cache/目錄，後續不用重複下載。

ComfyUI接入Woosh音效生成：從安裝到出片的完整工作流指南

四個核心節點詳解

Woosh Model Loader是模型載入節點，兩個關鍵參數：model_name選擇你下載的模型資料夾，model_type選擇模型類型。模型類型有四種：Flow（基礎文字轉音訊，品質最佳）、DFlow（蒸餾版，4步出結果，速度快10倍以上）、VFlow（基礎影片轉音訊）、DVFlow（蒸餾版影片轉音訊）。

Woosh Sampler是核心生成節點。prompt參數填寫聲音的文字描述，比如"雷聲滾動伴隨雨滴落在鐵皮屋頂上"。steps控制取樣步數，Flow/VFlow建議50步，DFlow/DVFlow只需4步。cfg是引導強度，基礎模型用4.5，蒸餾模型用3.5。latent_frames控制音訊時長，100幀約等於1秒，預設501幀大約5秒。seed設0就是隨機，固定數值可以重現結果。

Woosh Video Loader負責載入影片檔案。video_path填影片路徑，max_duration_s限制最大時長（預設8秒），也支援直接接收影像批次作為影片輸入。這個節點在影片轉音訊工作流中是必備的。

Woosh TextConditioning載入CLAP文字條件處理器，mode參數必須和任務匹配：做文字轉音訊選T2A，做影片轉音訊選V2A。選錯了會報錯或者生成結果不對，這是新手最容易踩的坑。

兩種工作流搭建

文字轉音訊工作流：Woosh Model Loader（選Flow或DFlow）連接Woosh Sampler，Sampler的prompt寫文字描述，輸出就是AUDIO格式的音訊。可以直接接ComfyUI的Save Audio節點儲存為檔案。

ComfyUI接入Woosh音效生成：從安裝到出片的完整工作流指南

影片轉音訊工作流：Woosh Video Loader載入影片，連接Woosh Model Loader（選VFlow或DVFlow），再接Woosh Sampler。Sampler會同時輸出video_frames（影像批次）和audio（音訊）。如果要把影音合成為成品影片，需要額外安裝ComfyUI-VideoHelperSuite節點包，用VideoCombine節點把幀和音訊合併輸出MP4。

ComfyUI接入Woosh音效生成：從安裝到出片的完整工作流指南

顯示記憶體最佳化策略

Woosh模型對顯示記憶體有一定要求。Flow和VFlow需要8到12GB顯示記憶體，DFlow和DVFlow降到4到6GB。如果你顯示記憶體緊張，三個辦法：第一，在Woosh Sampler上開啟force_offload選項，執行完自動把模型從顯示記憶體卸載到記憶體，顯示記憶體佔用可以降到2到4GB；第二，直接用蒸餾模型DFlow/DVFlow，不僅顯示記憶體低，速度也快很多；第三，減少latent_frames數值，比如從501改成301，音訊時長從5秒縮到3秒，顯示記憶體佔用也會下降。

常見問題

安裝後報"Error loading state_dict in strict mode"不用慌，這屬於正常現象，非嚴格模式載入可以正常運作。如果RoBERTa模型每次重啟都重新下載，那是HuggingFace的快取機制問題，第一次下載完後續會走本機快取。完全重啟ComfyUI可以解決大部分匯入錯誤。更多細節可以參考GitHub倉庫的README和issue區。

Woosh的接入讓ComfyUI工作流補齊了音訊生成這塊短板。以前做AIGC內容，畫面和聲音是兩條線分開處理的，現在全鏈路都能在ComfyUI裡一站式完成。對於AI漫劇、AI廣告、短影片創作者來說，這個工作流整合的意義比單獨用Woosh命令列要大得多。

發佈於 2026-05-30

標籤： AI漫劇 AI廣告

ComfyUI接入Woosh音效生成：從安裝到出片的完整工作流指南

ComfyUI-Woosh節點包是什麼

兩種安裝方式

下載模型檔案

四個核心節點詳解

兩種工作流搭建

顯示記憶體最佳化策略

常見問題

相關文章

AIGC内容定制

熱門資訊

優秀案例