島根県安来市のフリーランスエンジニア_プログラマー画像1

ボーカル・楽器を自動分離するシステムの作り方【デモあり】|AI音源分離・Python・AWS GPU構成の実装手順とコスト

「楽曲からボーカルだけを抜き出したい」「ドラム・ベース・ギターを個別トラックに分離したい」「カラオケ音源を自動生成するサービスを作りたい」——そんなニーズに応える音源分離システムの開発手順を解説します。本記事では、Web Audio APIを使ったブラウザ動作のデモを体験しながら、本格的なAI音源分離(Spleeter・Demucs)をPython + FastAPI + Celery + Redis + AWS S3 + GPU EC2で実装する方法を解説します。SaaSとして月額サブスクリプションで提供する収益化まで含めた実践的な内容です。

なぜAI音源分離システムが注目されているか

音楽制作・DTM・カラオケ・リミックスなど、音源分離の需要は幅広い分野で高まっています。従来の周波数フィルタリングでは限界があった音源分離が、深層学習(Spleeter・Demucs)の登場で実用レベルに達しました。LALAL.AIは2020年のローンチから3年で月間100万ユーザーを達成しており、市場の大きさが証明されています。

ユースケース 対象ユーザー 分離する音源
カラオケ音源生成 カラオケ店・個人 ボーカル除去(伴奏抽出)
リミックス・DTM DJプロデューサー ドラム・ベース・ギター個別抽出
音楽教育 音楽教師・学習者 特定楽器のみ抽出して練習
音楽制作 レコーディングエンジニア 既存曲の素材抽出・再利用

実際に動かしてみる(デモ)

以下は実際に動作するデモです。音声ファイル(MP3・WAV・OGG・M4A)をアップロードすると波形が表示されます。ローパス・ハイパス・バンドパス・ノッチの4種類のフィルターと周波数・Q値・音量を調整して処理後の音声をリアルタイムで確認できます。このデモはブラウザのWeb Audio APIで動作する周波数フィルタリングです。本格的な音源分離はSpleeter・DemucsなどのAIモデルを使います。

デモシステム

音源分離デモシステム

周波数フィルタリングで特定の音域を抽出・可視化

📁
音声ファイルをドラッグ&ドロップ またはクリックして選択
対応形式: MP3 / WAV / OGG / M4A

ファイル名:

再生時間:

サンプルレート: Hz

フィルタータイプ
フィルターパラメータ
1000 Hz
1.0
70%
元の音源の波形
処理後の音源(リアルタイム)

開発手順(10ステップ)

STEP 1:音源分離技術の選定

音源分離の手法は大きく2種類あります。このデモで使用した周波数フィルタリング(Web Audio APIのBiquadFilter)はブラウザで動作し即時処理できますが、ボーカルと伴奏を完全に分離する精度はありません。本格的な音源分離にはAIモデルが必要です。主な選択肢はSpleeter(Deezer製・オープンソース・ボーカル/ドラム/ベース/その他に分離)、Demucs(Meta AI製・最高精度・Hybrid Transformer Demucs v4が現状最強)、Open-Unmix(リアルタイム処理向け軽量モデル)です。商用APIとしてはLALAL.AI・AudioShakeなどがあります。

STEP 2:システムアーキテクチャ設計

音声ファイルは大容量(数十MB〜数百MB)のため、通常のWebアプリとは異なる設計が必要です。フロントエンドはNext.js + React、ファイルアップロード先はAWS S3またはCloudflare R2(直接アップロードでサーバー負荷を削減)、処理サーバーはPython + FastAPI、AI推論はGPU EC2(AWS P3インスタンス)、ジョブ管理はCelery + Redis、データベースはPostgreSQL(ユーザー・処理履歴)、結果配信はS3署名付きURLでの安全なダウンロードです。処理時間が長い(3分の楽曲で30秒〜数分)ためWebSocketまたはSSEでリアルタイム進捗表示が必須です。

STEP 3:Spleeterの導入と実装

pip install spleeterでインストールし、学習済みモデル(2stems=ボーカル+伴奏、4stems=ボーカル+ドラム+ベース+その他、5stems=さらにピアノを追加)から用途に応じて選択します。PythonコードはSeparator('spleeter:2stems')でインスタンスを作成し、separator.separate(waveform)で音源分離を実行、結果をWAV形式で保存します。処理速度はGPU使用時で3分の楽曲を約30秒、CPU使用時で約3〜5分です。より高精度を求める場合はDemucsに切り替えます(pip install demucs、コマンドdemucs input.mp3で実行)。

STEP 4:FastAPI + Celeryで非同期処理サーバー構築

音声処理は時間がかかるため同期処理ではタイムアウトします。FastAPIのエンドポイントでファイルをS3にアップロードしてCeleryタスクをキューに投入→即座にtask_idを返す→フロントエンドがtask_idで進捗をポーリングまたはWebSocketで監視→処理完了後にS3の結果URLを返すフローで実装します。CeleryのブローカーとバックエンドにはどちらもRedisを使います。ワーカーはGPUインスタンスに配置し、Dockerコンテナで管理します。

STEP 5:フロントエンド実装

react-dropzoneでドラッグ&ドロップのファイルアップロードUIを実装します。wavesurfer.jsで処理前後の波形を並べて表示し、Web Audio APIで分離前後の音声をプレビュー再生できるようにします。WebSocketで処理進捗をリアルタイム表示するプログレスバーも重要です。処理完了後は分離した各トラック(ボーカル・ドラム・ベースなど)を個別再生・個別ダウンロードできるUIを設計します。複数トラックのZIP一括ダウンロードはjszipライブラリで実装できます。

STEP 6:高度な機能の実装

カラオケ音源生成(ボーカル除去した伴奏トラックのダウンロード)はSpleeterの2stemsモデルで実現できます。リミックス機能では分離したトラックのボリューム調整・エフェクト追加をWeb Audio APIで実装します。MIDI変換はMeta AI製のBasic Pitchライブラリで音源からMIDI生成が可能です。バッチ処理(複数ファイルの一括処理)はCeleryのグループタスクで並列実行します。開発者向けのREST APIを公開すればB2Bでの収益化も可能です。

STEP 7:GPUインスタンスの最適化とコスト削減

AWS P3.2xlarge(V100 GPU・時間3.06ドル)はオンデマンドでは高額です。コスト削減策として、スポットインスタンス(最大70%削減)・オートスケーリング(リクエストが少ない時間帯はインスタンス0台に)・モデル量子化(INT8量子化で推論速度2〜4倍向上・コスト削減)・キャッシング(同じ楽曲の再処理を避けてS3にキャッシュ)を組み合わせます。小規模スタートならGCP Preemptible GPUやRunpod.ioなどの安価なGPUクラウドも選択肢です。

STEP 8:著作権とライセンス対策

音源分離の処理自体は合法ですが、分離後の楽曲を無断配布・販売することは著作権侵害です。利用規約でこれを明確に禁止します。ユーザーがアップロードした楽曲の著作権はユーザー本人が権利を持つものに限定する旨を利用規約に明記し、全処理履歴をログとして保存します。YouTube Content IDとの連携で著作権楽曲の検出も検討できます。音楽教育・研究目的での利用を推奨し、レコーディングスタジオ・カラオケ店向けの正規ライセンス販売も収益源になります。

STEP 9:マネタイズ戦略

無料プラン(月5回まで・2stems・標準品質)で裾野を広げ、プロプラン(月額1,980円・無制限・4stems・高品質)・ビジネスプラン(月額9,800円・API利用・バッチ処理)への転換を狙います。1曲300円の従量課金オプションも用意します。カラオケ店・レコーディングスタジオ向けの企業ライセンスは高単価案件になります。月間1,000ユーザー・有料転換率10%で月商約20万円が見込めます。Stripeでサブスクリプション課金を実装します。

STEP 10:マーケティングと成長戦略

YouTubeとTikTokで「ボーカル抽出デモ動画」を投稿するとバイラルしやすいジャンルです。音楽系YouTuberとのコラボや、Reddit(r/WeAreTheMusicMakers)・Discord・音楽系フォーラムでのPRも効果的です。SEOは「音源分離」「ボーカル抽出」「カラオケ作成 方法」などのキーワードで上位表示を狙います。本記事のデモのようにWordPressに埋め込み可能なウィジェットとしてブログ記事に設置することでも集客できます。無料プランで習慣化させてから有料プランへ転換するLALAL.AI型の戦略が有効です。

開発・運用コストの目安

Python + FastAPI + Spleeter + CeleryのMVP構成なら10万円程度から開発をスタートできます。GPU EC2のコストが最大の変動費なので、スポットインスタンスとオートスケーリングを最初から設計に組み込むことが重要です。

フェーズ 内容 費用目安
フェーズ1(MVP) Spleeter処理・S3アップロード・基本UI 10万〜20万円
フェーズ2(機能追加) Demucs・リアルタイム進捗・WAV出力・Stripe課金 10万〜30万円
フェーズ3(収益化) API公開・バッチ処理・企業向けライセンス 10万〜30万円
GPU EC2(スポット) P3.2xlarge(V100)スポット価格 時間0.9ドル〜(約135円〜)
AWS S3 音声ファイルストレージ 月2,000円〜10,000円
Redis + PostgreSQL ElastiCache + RDS 月5,000円〜15,000円
月額運用費(目安) サーバー+GPU+保守 月3万〜15万円

よくある質問

SpleeterとDemucsどちらを使うべきですか?

用途と予算で選んでください。Spleeterは導入が簡単で処理速度が速く、ボーカル/伴奏の2分離なら十分な精度があります。DemucsはSpleeterより精度が高く4〜6種類への分離が可能ですが、処理時間が長く必要なGPUメモリも多くなります。MVPはSpleeterで始めて、ユーザーから精度向上の要望が出たらDemucsに切り替えるのが現実的です。

ブラウザだけで完結するシステムは作れますか?

このデモのようなWebAudio APIの周波数フィルタリングはブラウザのみで動作しますが、AIによる本格的な音源分離はブラウザだけでは困難です。TensorFlow.jsでDemucsの軽量版をブラウザで動作させる試みはありますが、処理時間が数分〜十数分かかりユーザー体験が悪くなります。サーバーサイドでGPU処理するアーキテクチャが現実的です。

著作権のある楽曲を処理するサービスを作っても問題ありませんか?

ユーザーが自分でアップロードした楽曲を処理する行為自体は私的使用の範囲で問題ないとされますが、処理結果を公開・配布することは著作権侵害になります。プラットフォームとしては「ユーザーが権利を持つ楽曲のみアップロード可能」と利用規約に明記し、違反コンテンツへの対処フローを整備することが重要です。サービス提供前に弁護士に相談することを強く推奨します。

まとめ

Spleeter/Demucs + FastAPI + Celery + Redis + AWS S3 + GPU EC2の構成でAI音源分離システムをMVP10万円程度から開発できます。デモで確認した周波数フィルタリングはブラウザだけで動作する即効性があり、記事への埋め込みデモとして活用できます。音源分離の需要は音楽制作・カラオケ・教育と幅広く、月額サブスクリプションとAPI提供を組み合わせた収益モデルで持続可能なSaaSを構築できます。

開発のご相談や見積もりはお気軽にお問い合わせください。要件定義からリリースまで一貫してサポートします。

Simple SEO Eatransform をリリースしました

LPは「作って終わり」にしないほうがいい、という話