資訊中心 2026-05-30 14:26 105 次閱讀

ComfyUI接入Woosh音效生成:從安裝到出片的完整工作流指南

手把手教你在ComfyUI中安裝和使用索尼AI開源音效模型Woosh,實現文字生成音效和影片自動配音,含模型下載、節點設定、顯示記憶體最佳化及常見問題排查。

上一篇我們介紹了索尼AI開源的Woosh音效生成模型有多強,很多朋友問:ComfyUI裡能不能直接用?答案是可以,而且已經有人做好了現成的節點包。今天就來講講怎麼在ComfyUI裡把Woosh跑起來,從安裝到出片一步到位。

ComfyUI-Woosh節點包是什麼

ComfyUI-Woosh是開發者Saganaki22發布在GitHub上的自訂節點包,把索尼AI的Woosh基礎模型封裝成了ComfyUI原生節點。裝好之後你可以在ComfyUI工作流裡直接實現文字生成音效影片自動配音,不用寫一行程式碼。整個節點包提供四個核心節點,覆蓋了從模型載入到音訊輸出的完整鏈路。

ComfyUI接入Woosh音效生成:從安裝到出片的完整工作流指南

兩種安裝方式

方式一:ComfyUI Manager安裝(推薦)打開ComfyUI Manager,搜尋"Woosh",點擊安裝,重啟ComfyUI即可。這是最省心的方式,相依性會自動處理。

方式二:手動安裝進入ComfyUI的自訂節點目錄,執行git clone https://github.com/saganaki22/ComfyUI-Woosh.git,然後pip install -r ComfyUI-Woosh/requirements.txt安裝相依性,最後重啟ComfyUI。手動安裝的好處是可以指定版本,適合需要穩定環境的生產場景。

下載模型檔案

節點裝好後還需要下載模型權重。去HuggingFace上的drbaph/Woosh倉庫,把模型檔案下載到ComfyUI/models/woosh/目錄下。必須下載的有三個:Woosh-AE(音訊編解碼器)、TextConditionerA(文字T2A條件器)和TextConditionerV(文字V2A條件器)。生成模型按需下載,四選一或全下都行。

如果你在國內遇到HuggingFace下載失敗的問題,啟動ComfyUI前設定環境變數set HF_ENDPOINT=https://hf-mirror.com就能走鏡像源。首次下載後模型會快取在models/woosh/hf_cache/目錄,後續不用重複下載。

ComfyUI接入Woosh音效生成:從安裝到出片的完整工作流指南

四個核心節點詳解

Woosh Model Loader是模型載入節點,兩個關鍵參數:model_name選擇你下載的模型資料夾,model_type選擇模型類型。模型類型有四種:Flow(基礎文字轉音訊,品質最佳)、DFlow(蒸餾版,4步出結果,速度快10倍以上)、VFlow(基礎影片轉音訊)、DVFlow(蒸餾版影片轉音訊)。

Woosh Sampler是核心生成節點。prompt參數填寫聲音的文字描述,比如"雷聲滾動伴隨雨滴落在鐵皮屋頂上"。steps控制取樣步數,Flow/VFlow建議50步,DFlow/DVFlow只需4步。cfg是引導強度,基礎模型用4.5,蒸餾模型用3.5。latent_frames控制音訊時長,100幀約等於1秒,預設501幀大約5秒。seed設0就是隨機,固定數值可以重現結果。

Woosh Video Loader負責載入影片檔案。video_path填影片路徑,max_duration_s限制最大時長(預設8秒),也支援直接接收影像批次作為影片輸入。這個節點在影片轉音訊工作流中是必備的。

Woosh TextConditioning載入CLAP文字條件處理器,mode參數必須和任務匹配:做文字轉音訊選T2A,做影片轉音訊選V2A。選錯了會報錯或者生成結果不對,這是新手最容易踩的坑。

兩種工作流搭建

文字轉音訊工作流:Woosh Model Loader(選Flow或DFlow)連接Woosh Sampler,Sampler的prompt寫文字描述,輸出就是AUDIO格式的音訊。可以直接接ComfyUI的Save Audio節點儲存為檔案。

ComfyUI接入Woosh音效生成:從安裝到出片的完整工作流指南

影片轉音訊工作流:Woosh Video Loader載入影片,連接Woosh Model Loader(選VFlow或DVFlow),再接Woosh Sampler。Sampler會同時輸出video_frames(影像批次)和audio(音訊)。如果要把影音合成為成品影片,需要額外安裝ComfyUI-VideoHelperSuite節點包,用VideoCombine節點把幀和音訊合併輸出MP4。

ComfyUI接入Woosh音效生成:從安裝到出片的完整工作流指南

顯示記憶體最佳化策略

Woosh模型對顯示記憶體有一定要求。Flow和VFlow需要8到12GB顯示記憶體,DFlow和DVFlow降到4到6GB。如果你顯示記憶體緊張,三個辦法:第一,在Woosh Sampler上開啟force_offload選項,執行完自動把模型從顯示記憶體卸載到記憶體,顯示記憶體佔用可以降到2到4GB;第二,直接用蒸餾模型DFlow/DVFlow,不僅顯示記憶體低,速度也快很多;第三,減少latent_frames數值,比如從501改成301,音訊時長從5秒縮到3秒,顯示記憶體佔用也會下降。

常見問題

安裝後報"Error loading state_dict in strict mode"不用慌,這屬於正常現象,非嚴格模式載入可以正常運作。如果RoBERTa模型每次重啟都重新下載,那是HuggingFace的快取機制問題,第一次下載完後續會走本機快取。完全重啟ComfyUI可以解決大部分匯入錯誤。更多細節可以參考GitHub倉庫的README和issue區。

Woosh的接入讓ComfyUI工作流補齊了音訊生成這塊短板。以前做AIGC內容,畫面和聲音是兩條線分開處理的,現在全鏈路都能在ComfyUI裡一站式完成。對於AI漫劇、AI廣告、短影片創作者來說,這個工作流整合的意義比單獨用Woosh命令列要大得多。

發佈於 2026-05-30