「会議後の議事録作成に毎回30分〜1時間かかっている」「アクションアイテムの抜け漏れが多い」「録音をそのまま残しても誰も聞き返さない」——そんな課題を解決するAI議事録自動生成システムの開発手順を解説します。本記事では、会議音声をアップロードするとOpenAI Whisperで文字起こし・Claude APIで要約・アクションアイテム抽出・話者識別まで自動で行うシステムを、実際に動くデモを交えながら解説します。Node.js + Next.js + Whisper API + Claude API + PostgreSQL + AWS S3の構成で、SaaS化まで含めた実践的な内容です。
なぜ「AI議事録自動生成」が今求められているか
日本の会議時間は年間で一人あたり平均約1,000時間とも言われます。その後の議事録作成・共有・タスク管理にかかる工数は膨大です。Whisper APIとLLMの登場でこれらが完全自動化できるようになりました。Otter.aiは2020年から急成長し数百万ユーザーを獲得しており、日本語特化の競合はまだ少ない状況です。
| 従来の議事録作成 | AI自動生成システムでの改善 |
|---|---|
| 会議後に手動で30分〜1時間かけて作成 | 会議終了後2〜3分で自動生成完了 |
| アクションアイテムの抜け漏れが多い | AIが発言から自動抽出・担当者・期限も整理 |
| 誰が何を言ったか不明になりがち | 話者識別で発言者ごとに整理 |
| 録音ファイルは誰も聞き返さない | 要約・検索可能なテキストとして蓄積 |
実際に動かしてみる(デモ)
以下は実際に動作するデモです。音声ファイル(MP3・WAV・M4A・OGG)を選択して「AI分析を開始」ボタンを押すと、AI解析プロセスをシミュレートして会議の要約・アクションアイテム・文字起こしを表示します。実際のシステムではWhisper APIとClaude APIが連携して本物の音声を処理します。
会議音声AI整理システム
音声を分析して要約・アクションアイテム・文字起こしを自動生成
開発手順(12ステップ)
STEP 1:音声認識技術の選定
文字起こしの精度がシステム全体の品質を左右します。主な選択肢はOpenAI Whisper API(1分あたり約0.9円・日本語精度が非常に高い・API統合が簡単)、Google Cloud Speech-to-Text(リアルタイムストリーミング対応・話者分離機能あり)、Azure Speech Service(カスタムモデル作成可能・業界特化語彙に対応)、AssemblyAI(話者識別・感情分析・トピック検出まで一括処理)、オープンソース版Whisper(ローカル動作・プライバシー重視の案件向け)です。MVPはWhisper APIから始め、コストが問題になったらオープンソース版に移行するのが現実的です。
STEP 2:システムアーキテクチャ設計
音声ファイルは大容量のため、通常のWebアプリとは異なる設計が必要です。フロントエンドはNext.js + React、音声ファイルアップロード先はAWS S3(直接アップロードでサーバー負荷を削減)、処理サーバーはNode.js + ExpressまたはPython + FastAPI、音声認識はWhisper API、AI分析はClaude APIまたはGPT-4、データベースはPostgreSQL(ユーザー・会議履歴管理)、リアルタイム進捗通知はWebSocketで実装します。処理時間が長い(1時間の音声で2〜3分)ためWebSocketまたはSSEでの進捗表示が必須です。
STEP 3:Whisper APIによる文字起こし実装
Node.jsの場合は`openai`パッケージを使い、`openai.audio.transcriptions.create`でモデル`whisper-1`・言語`ja`・レスポンスフォーマット`verbose_json`・タイムスタンプ粒度`segment`を指定します。ファイルサイズ制限が25MBのため、それ以上のファイルはffmpegで10分ごとに分割してから順番に送信し、結果を結合します。処理時間は1時間の音声で約2〜3分です。話者識別はプロンプトで「参加者: 佐藤、田中、鈴木」と事前指定することで精度が向上します。
STEP 4:Claude APIで議事録を構造化
文字起こしテキストをClaude APIに送り、要約・アクションアイテム(担当者・期限・優先度付き)・カテゴリ分類・決定事項・次回への引き継ぎ事項をJSON形式で返してもらいます。プロンプトにはJSON形式の出力仕様を明示し、温度パラメーターを低く設定(temperature: 0.2程度)して安定した出力を確保します。Claude APIはAnthropicが提供しており、`@anthropic-ai/sdk`パッケージで実装できます。1回のAPI呼び出しで会議全体を処理できる長いコンテキストウィンドウが強みです。
STEP 5:話者識別の実装
誰が何を話したかを識別する方法は4種類あります。AIによる文脈推測(精度中程度・追加コストなし)、Pyannote.audioによる声紋分析(精度高・Python実装が必要)、Zoom等でのマイク別個別録音(最も正確・事前準備が必要)、参加者名を事前入力してAIが発言を割り当てる方式(実装が簡単・精度はそこそこ)です。MVPは参加者名の事前入力方式から始め、精度向上の要望が出たらPyannote.audioを導入する段階的アプローチが推奨です。
STEP 6:リアルタイム処理の実装
会議中にリアルタイムで文字起こしするには、WebRTCでブラウザからマイク音声をストリーミングし、Google Cloud Speech-to-Text StreamingまたはAzure Speech Serviceのストリーミング認識でテキスト化します。Node.jsのWebSocketサーバーで受信した音声データを認識APIに渡し、結果をクライアントにリアルタイム送信します。5〜10秒ごとにClaude APIで重要ポイントをハイライト表示する「会議中プレビュー機能」も実装できます。
STEP 7:フロントエンド実装
react-dropzoneでドラッグ&ドロップのファイルアップロードUIを実装します。処理ステージ(音声認識中→AI分析中→生成完了)を3段階プログレスバーで表示します。結果画面ではアクションアイテムのチェックボックス・手動編集・担当者へのSlack通知ボタンを実装します。エクスポート機能はPDF(jsPDF)・Markdown・Notionの3形式が重要です。WebSocketで進捗をリアルタイム受信してUIを更新します。
STEP 8:高度な機能の実装
過去の会議との連携では、前回の議事録をClaude APIに参照させて「先月の会議からの継続議題」を自動検出します。感情分析では発言のトーンから懸念点・合意形成のポイントを検出します。専門用語辞書は業界特有の用語を事前登録してWhisperの認識精度を向上させます。Google Calendar APIと連携してアクションアイテムを自動スケジュール追加する機能、Slack/Teams Webhookで会議終了後に要約を自動投稿する機能も差別化ポイントになります。
STEP 9:セキュリティとプライバシー
会議音声は機密情報を含むため、音声ファイルとテキストはAES-256で暗号化して保存します。処理完了後30日で音声ファイルをS3から自動削除するライフサイクルポリシーを設定します。チーム内でのみ閲覧可能にし、外部共有は明示的な許可制にします。誰がいつアクセスしたかの監査ログも必須です。GDPRと日本の個人情報保護法への対応(削除依頼フロー)を実装します。大企業向けにはオンプレミス版(企業内サーバー動作)の提供も検討します。利用規約では責任範囲を明確化し、企業向けにはNDA締結を推奨します。
STEP 10:コスト管理と収益化
1時間会議の処理コストはWhisper API(約54円)+Claude API(約10〜30円)+S3ストレージ(数円)で合計約70〜150円です。価格設定は無料プラン(月5回まで)、プロプラン(月額2,980円・無制限)、エンタープライズ(月額29,800円・API提供・SSO対応・専用サポート)の3階層が基本です。1会議500円の従量課金オプションも用意します。月間500社が平均5,000円で契約すれば月商250万円、エンタープライズ10社で追加30万円/月が見込めます。Stripeでサブスクリプション課金を実装します。
STEP 11:マーケティング戦略
フリーランス・個人事業主にはSNSで「クライアントとの会議管理が劇的に楽になる」訴求が効果的です。スタートアップ向けはProduct Huntでのローンチと創業者向けコミュニティへの投稿です。中小企業向けはリモートワーク支援ツールとしてLinkedIn広告で展開します。大企業の営業チーム・コンサルティング会社への直接営業も重要です。「議事録作成の時間を90%削減」「アクションアイテムの抜け漏れゼロ」など具体的なベネフィットのコンテンツマーケティングが有効で、14日間の無料トライアルで体験させてから有料転換します。
STEP 12:MVPを1週間で作る最小構成
Day 1〜2でNext.jsでフロントエンドを構築しファイルアップロードUIを実装します。Day 3〜4でWhisper APIで音声をテキスト化して結果表示します。Day 5〜6でClaude APIで要約・アクションアイテム抽出を実装します。Day 7でVercel + AWS Lambdaにデプロイして友人に試してもらいフィードバックを得ます。最初は全機能を実装せず「音声→テキスト→要約」の基本フローだけを完成させてユーザーの反応を見てから機能を追加するのが成功の鍵です。
開発・運用コストの目安
Whisper API + Claude API + Node.js + PostgreSQLの構成なら、音声アップロード→文字起こし→AI要約の基本フローを備えたMVPを10万円程度から開発できます。
| フェーズ | 内容 | 費用目安 |
|---|---|---|
| フェーズ1(MVP) | 音声→Whisper→Claude要約・アクションアイテム表示 | 10万〜20万円 |
| フェーズ2(機能追加) | 話者識別・リアルタイム処理・WebSocket・PDF出力 | 10万〜30万円 |
| フェーズ3(SaaS化) | Stripe課金・Slack連携・チーム機能・エンタープライズ対応 | 10万〜50万円 |
| Whisper API | 約0.9円/分 | 1時間会議=約54円 |
| Claude API | 約450円/100万トークン(入力) | 1回の分析=約10〜30円 |
| AWS S3 + サーバー | ストレージ + EC2/Lambda | 月5,000円〜20,000円 |
| 月額運用費(目安) | API費用込み(500件/月想定) | 月3万〜10万円 |
よくある質問
日本語の文字起こし精度はどれくらいですか?
OpenAI Whisper APIの日本語精度は非常に高く、標準的なビジネス会話では誤字率5%以下が期待できます。ただし専門用語・固有名詞・方言は精度が下がることがあります。改善策として、Whisperのpromptパラメーターに「この会議はIT企業のプロジェクト会議です。参加者は佐藤、田中、鈴木です。専門用語:〇〇」のようにコンテキストを与えると精度が向上します。マイクの品質と録音環境も精度に大きく影響するため、高品質なマイクの使用を推奨します。
機密情報が含まれる会議の音声をクラウドに送って大丈夫ですか?
OpenAI・Anthropicとも企業向けの利用規約でユーザーデータを学習に使用しないオプションを提供しています。より厳格なセキュリティが必要な場合はオープンソース版WhisperとローカルLLMをオンプレミスで動作させる構成が選択肢です。ただしオンプレミスはGPUサーバーの調達・運用コストが増加します。エンタープライズプランではお客様の環境内(AWS VPC等)にデプロイする形も提供できます。
Zoom・Microsoft Teamsの録画から直接処理できますか?
ZoomはAPIで録画データをS3に自動転送する連携が可能です。Microsoft TeamsはGraph APIで会議録画を取得できます。Google MeetはGoogle Drive APIで録画ファイルを取得できます。これらのAPIと連携することで、会議終了後に自動的に処理が始まるフローを構築でき、ユーザーが手動でアップロードする手間をなくせます。この自動連携機能はプレミアムプランの差別化機能として有効です。
まとめ
OpenAI Whisper + Claude API + Node.js + PostgreSQL + AWS S3の構成でAI議事録自動生成システムをMVP10万円程度から開発できます。音声→文字起こし→要約・アクションアイテム抽出という基本フローを1週間で実装し、話者識別・リアルタイム処理・外部ツール連携を段階的に追加するアプローチが成功への近道です。議事録作成の工数削減は誰もが実感できる価値であり、SaaSとして月額2,980円〜29,800円の価格帯で展開すれば安定した収益モデルを構築できます。
開発のご相談や見積もりはお気軽にお問い合わせください。要件定義からリリースまで一貫してサポートします。
