前回の記事ではソニーAIがオープンソース化したWooshサウンドエフェクト生成モデルの性能をご紹介しましたが、多くの方から「ComfyUIで直接使えるのか?」という質問をいただきました。答えはイエスです。すでに完成されたノードパッケージも存在しています。今回は、ComfyUIでWooshを動作させる方法をインストールから出力まで一挙に解説します。
ComfyUI-Wooshノードパッケージとは
ComfyUI-Wooshは開発者Saganaki22がGitHubに公開しているカスタムノードパッケージで、ソニーAIのWoosh基盤モデルをComfyUIネイティブノードとしてカプセル化したものです。インストール後、ComfyUIワークフロー内で直接テキストからの効果音生成と映像の自動配音を実現でき、一行もコードを書く必要がありません。ノードパッケージ全体で4つのコアノードを提供し、モデル読み込みからオーディオ出力までの完全なチェーンをカバーしています。

2つのインストール方法
方法1:ComfyUI Managerでのインストール(推奨)ComfyUI Managerを開き、「Woosh」を検索してインストールをクリックし、ComfyUIを再起動するだけです。これが最も手軽な方法で、依存関係は自動的に処理されます。
方法2:手動インストールComfyUIのカスタムノードディレクトリに移動し、git clone https://github.com/saganaki22/ComfyUI-Woosh.gitを実行します。次にpip install -r ComfyUI-Woosh/requirements.txtで依存関係をインストールし、最後にComfyUIを再起動します。手動インストールの利点はバージョンを指定でき、安定した環境が必要なプロダクションシナリオに適しています。
モデルファイルのダウンロード
ノードのインストール後、モデルの重みもダウンロードする必要があります。HuggingFaceのdrbaph/WooshリポジトリからモデルファイルをComfyUI/models/woosh/ディレクトリにダウンロードしてください。必須のファイルは3つです:Woosh-AE(オーディオコーデック)、TextConditionerA(テキストT2Aコンディショナー)、TextConditionerV(テキストV2Aコンディショナー)。生成モデルは必要に応じてダウンロードし、4つから1つ選ぶかすべてダウンロードしても構いません。
中国国内でHuggingFaceのダウンロードに失敗する場合は、ComfyUIを起動する前に環境変数set HF_ENDPOINT=https://hf-mirror.comを設定するとミラーソースを利用できます。初回ダウンロード後、モデルはmodels/woosh/hf_cache/ディレクトリにキャッシュされ、以降の再ダウンロードは不要です。

4つのコアノード詳細解説
Woosh Model Loaderはモデル読み込みノードで、2つの重要なパラメータがあります。model_nameでダウンロードしたモデルフォルダを選択し、model_typeでモデルタイプを選択します。モデルタイプは4種類あります:Flow(基本テキストからオーディオ、最高品質)、DFlow(蒸留版、4ステップで出力、10倍以上高速)、VFlow(基本映像からオーディオ)、DVFlow(蒸留版映像からオーディオ)。
Woosh Samplerはコア生成ノードです。promptパラメータに音のテキスト記述を入力します。例えば「雷鳴が轟き、雨粒がトタン屋根に落ちる」などです。stepsはサンプリングステップ数を制御し、Flow/VFlowは50ステップ、DFlow/DVFlowはわずか4ステップで済みます。cfgはガイダンス強度で、基本モデルは4.5、蒸留モデルは3.5を使用します。latent_framesはオーディオの長さを制御し、100フレームは約1秒に相当し、デフォルトの501フレームは約5秒です。seedに0を設定するとランダムになり、数値を固定すると結果を再現できます。
Woosh Video Loaderは映像ファイルの読み込みを担当します。video_pathに映像パスを入力し、max_duration_sで最大長を制限します(デフォルト8秒)。画像バッチを映像入力として直接受け取ることもできます。このノードは映像からオーディオへのワークフローでは必須です。
Woosh TextConditioningはCLAPテキストコンディショニングプロセッサを読み込みます。modeパラメータはタスクと一致させる必要があります。テキストからオーディオの場合はT2Aを、映像からオーディオの場合はV2Aを選択します。誤った選択をするとエラーが発生するか生成結果が正しくなくなります。これは初心者が最も陥りやすい落とし穴です。
2種類のワークフロー構築
テキストからオーディオへのワークフロー:Woosh Model Loader(FlowまたはDFlowを選択)をWoosh Samplerに接続し、Samplerのpromptにテキスト記述を入力すると、出力はAUDIO形式のオーディオとなります。ComfyUIのSave Audioノードに直接接続してファイルとして保存できます。

映像からオーディオへのワークフロー:Woosh Video Loaderで映像を読み込み、Woosh Model Loader(VFlowまたはDVFlowを選択)に接続し、さらにWoosh Samplerに接続します。Samplerはvideo_frames(画像バッチ)とaudio(オーディオ)を同時に出力します。映像と音声を合成して完成品とする場合は、ComfyUI-VideoHelperSuiteノードパッケージを追加インストールし、VideoCombineノードでフレームとオーディオを統合してMP4を出力する必要があります。

VRAM最適化戦略
Wooshモデルはある程度のVRAMを必要とします。FlowとVFlowは8〜12GBのVRAMが必要で、DFlowとDVFlowは4〜6GBに低減されます。VRAMが不足している場合は3つの方法があります。第一に、Woosh Samplerのforce_offloadオプションを有効にすると、実行後にモデルをVRAMからメインメモリに自動的にアンロードし、VRAM使用量を2〜4GBに削減できます。第二に、蒸留モデルDFlow/DVFlowを使用すると、VRAMが低くなるだけでなく、速度も大幅に向上します。第三に、latent_framesの値を減らすことで、例えば501から301に変更するとオーディオ長が5秒から3秒に短縮され、VRAM使用量も低下します。
よくある問題
インストール後に「Error loading state_dict in strict mode」と表示されても慌てる必要はありません。これは正常な動作で、非strictモードでの読み込みは正常に機能します。RoBERTaモデルが再起動のたびに再ダウンロードされる場合は、HuggingFaceのキャッシュメカニズムの問題であり、初回ダウンロード後はローカルキャッシュから読み込まれます。ComfyUIを完全に再起動することで、大部分のインポートエラーを解決できます。詳細はGitHubリポジトリのREADMEとissueセクションをご参照ください。
Wooshの導入により、ComfyUIワークフローはオーディオ生成という短板を補完しました。以前AIGCコンテンツ制作では映像と音声が別々のワークフローで処理されていましたが、今やフルチェーンをComfyUI内で一元的に完結できます。AI漫画劇、AI広告、ショート動画クリエイターにとって、このワークフロー統合の意義はWooshをコマンドラインで単体使用する場合よりもはるかに大きいものです。