ニュースセンター 2026-05-30 14:16 62 回閲覧

Wooshサウンドエフェクト生成:オープンソースオーディオモデルがAIGC音響制作を変える

AIGCコンテンツ制作に携わる方ならご存知の通り、映像は作りやすくても音のアレンジは難しい。AI漫画劇が精緻なコマ割り映像を生成しても、サウンドエフェクトの付加は常にボトルネックでした。ソニーAIは2026年にサウンドエフェクト基盤モデルWooshをオープンソース化し、テキストからの効果音生成と映像自動配音をサポート。音質指標は既存のオープンソースソリューションを全面的に凌駕し、AIGCコンテンツ制作にプロフェッショナルレベルの音響ソリューションを提供します

AIGCコンテンツ制作に携わる方ならご存知の通り、映像は作りやすくても音のアレンジは難しい。AI漫画劇が精緻なコマ割り映像を生成しても、サウンドエフェクトの付加は常にボトルネックでした。素材サイトで著作権付き効果音を購入するか、自ら録音してポストプロダクション処理を行うか、手間と時間がかかる上に必ずしも映像とマッチしません。2026年3月、ソニーAIはWooshサウンドエフェクト生成モデルを正式にオープンソース化し、この課題を解決しました。

Wooshとは何か

WooshはソニーAIが開発したサウンドエフェクト基盤モデル(Sound Effects Foundation Model)です。2026年3月16日にGitHubで推論コードとモデルの重みを公開しました。単一モデルではなく、4つのモジュールが連携する完全な効果音生成システムであり、コアとなる能力は2つです:テキスト記述による効果音生成映像の自動配音

簡単に言えば、「雷鳴が轟き、雨粒がトタン屋根に落ちる」といったテキスト描述を入力すると、Wooshは対応する高品質な効果音ファイルを生成します。あるいは、無音の映像を投入すると、画面の内容を自動分析してマッチする音を生成します。足音、車のエンジン音、水流音、ガラスの割れる音など、すべて対応可能です。

Wooshサウンドエフェクト生成:ソニーのオープンソースオーディオモデルがAIGC制作の音響ワークフローを変える

4つのモジュールがそれぞれの役割を担う

Wooshのアーキテクチャは巧妙に設計されており、4つの専門モジュールで構成されています。

Woosh-AEはオーディオエンコーダ・デコーダで、生のオーディオ波形をハイフィデリティな潜在表現に変換し、高品質なオーディオに復元します。改良されたVOCOSアーキテクチャを採用し、複素数短時間フーリエ変換の実部と虚部を直接予測することで、従来の離散化手法に起因する音質劣化を回避しています。AudioCapsテストセットにおいて、メルスペクトル距離がStableAudio-Openと比較して85%低く、短時間フーリエ変換距離は23%低下しています。

Woosh-CLAPはテキスト条件付けモジュールで、人間の自然言語記述を理解しセマンティック埋め込みに変換して、効果音生成をガイドします。テキストエンコーダにはRoBERTa-Large(3億5500万パラメータ)、オーディオエンコーダにはPaSST(8600万パラメータ)を使用しています。研究チームは重要な知見を得ました。プロフェッショナルな効果音ライブラリでトレーニングされたモデルは、プロフェッショナルテストセットでのテキストからオーディオへの再現率が公開データセットでトレーニングされたモデルより248%高く、ドメインデータの品質が生成効果の上限を決定することを示しています。

Woosh-Flowはコアジェネレータであり、フローマッチングベースの拡散モデルアーキテクチャを採用し、内部は12層のマルチモーダルTransformerです。さらに実用的なのは蒸留バージョンのWoosh-DFlowで、MeanFlow蒸留技術を活用して生成ステップを数十ステップから4ステップに圧縮し、消費者向けハードウェアでほぼリアルタイムの速度を実現しつつ、元のモデルの90%以上の生成品質を維持します。

Woosh-VFlowは最も注目すべきモジュールであり、映像からオーディオへの生成器です。SynchFormerモデルを使用して毎秒24フレームで映像特徴を抽出し、画面と同期した効果音を自動生成します。トレーニングデータにおける視聴覚アライメントの不正確さを解消するため、チームはQwen3-Omniオーディオ言語モデルを使用して映像データに対して正確なオーディオ記述を再生成しました。このデータクレンジングのアプローチは参考になるものです。

既存ソリューションとの比較

Wooshは複数の指標で現在主流のオープンソースオーディオ生成モデルを上回っています。テキストからオーディオの方向では、Woosh-Flowのフレシェ距離はTangoFluxより17%低く、StableAudio-Openより27%低くなっています。セマンティックマッチング度のCLAPスコアはTangoFluxより6%高く、StableAudio-Openより150%高くなっています。映像からオーディオの方向では、Woosh-VFlowのFoleyBenchデータセットでのフレシェ距離はMMAudio-Mモデルより21%低く、パラメータ数も33%少なくなっています。

これが意味することは何でしょうか。生成される効果音はよりリアルで、テキスト記述とのマッチング度が高く、速度快く、モデルが軽量です。効果音をバッチ生成する必要があるAIGC制作チームにとって、効率向上は確実に実感できるものです。

Wooshサウンドエフェクト生成:ソニーのオープンソースオーディオモデルがAIGC制作の音響ワークフローを変える

AIGC制作における実際の価値

AIGCコンテンツ制作の実際のワークフローにおいて、Wooshは長年存在していたいくつかの課題を解決します。AI漫画劇の制作では、各話に大量の環境音とアクション効果音が必要で、従来は効果音ライブラリから一つずつ検索・ダウンロードしていましたが、テキスト記述でバッチ生成が可能になりました。AI広告映像の制作では、製品デモ映像にマッチする効果音が必要ですが、Woosh-VFlowが画面を自動分析して配音することで、手動での選択とアライメントの時間を省けます。ショート動画コンテンツのクリエイターはさらにもっと恩恵を受けます。専門的なオーディオ知識がなくても映画レベルの効果音品質を手に入れられます。

現在、WooshのコードはMITおよびApache 2.0ライセンスを採用しており、モデルの重みはCC-BY-NCライセンス(非商用のみ)を採用しています。商用利用の場合、ソニーが今後商用ライセンスを開放するかどうかを注視する必要があります。ただし、それであっても、オープンソースのコードと技術ソリューションはAIGCオーディオ業界全体に新たな技術ベンチマークを確立しており、コミュニティはこれを基により専門的な垂直シナリオモデルを開発できます。

使い方

WooshはGradioウェブデモインターフェースとAPIサーバーの2つのデプロイメント方式を提供しており、開発者にとって導入ハードルは高くありません。GitHubリポジトリはSonyResearch/Wooshで、技術レポートはarXivで入手できます(番号2604.01929)。AIGCワークフローにバッチ効果音生成機能が必要な場合は、ぜひこのモデルをお試しください。現在オープンソース界で数少ない効果音生成ソリューションの一つです。

公開日: 2026-05-30