島根県安来市のフリーランスエンジニア_プログラマー画像1

話すだけで介護記録が作れるシステムの作り方【デモあり】|音声認識・AI構造化・PostgreSQLの実装手順とコスト

「介護記録の入力に時間がかかってケアの時間が削られている」「スタッフがパソコン操作に不慣れで記録が後回しになっている」「話すだけで記録が自動作成されるシステムを導入したい」——そんな相談が増えています。本記事では、スタッフが話した内容をWeb Speech APIで音声認識し、Claude AIが介護記録の形式に自動変換してPostgreSQLに保存するシステムの開発手順を、実際に動くデモを交えながら解説します。スタッフ10名の施設で月150時間の記録作業削減(人件費換算で月22万円相当)も見込めます。

なぜ音声入力が介護現場に向いているか

介護現場では両手が塞がっている状態でのケアが多く、タブレットやPCへのテキスト入力は作業の中断を強いられます。音声入力であればケアをしながらその場で記録でき、記録のためにナースステーションに戻る必要がなくなります。またICT機器に不慣れな高齢スタッフでも「話す」という直感的な操作で使えることが普及のポイントです。

課題 従来の方法 音声入力システムでの改善
記録に時間がかかる 1件5〜10分のテキスト入力 1件1〜2分で音声入力完了
ケアの中断が必要 PCの前に座って入力 ケアしながらその場で記録
記録の質がスタッフによって差がある 手書き・自由入力 AIが正式な記録形式に自動変換
入力ミスや記録漏れ 後からまとめて入力 ケア直後に音声で即記録

実際に動かしてみる(デモ)

以下は実際に動作するデモです。マイクボタンを押して「田中さんの朝食介助を行いました。全量摂取で機嫌も良好です」のように話すと、AIが介護記録の形式に自動変換して一覧に追加します。音声認識に対応していないブラウザではデモモードで動作します。CSVエクスポートボタンで記録をダウンロードできます。

デモシステム

介護記録音声入力システム

話すだけで構造化された介護記録が自動作成されます

マイクボタンを押して記録を開始
ここに音声認識結果が表示されます…
記録一覧
田中 太郎 様
2025年11月25日 10:30
食事介助朝食を全量摂取されました。機嫌も良好で、スタッフとの会話も楽しまれていました。
佐藤 花子 様
2025年11月25日 09:15
服薬確認朝の服薬を確認しました。血圧は130/85、体温36.5度で問題ありません。

開発手順(10ステップ)

STEP 1:音声認識APIの選択と設定

まず音声認識エンジンを選びます。無料で始めるならブラウザ標準のWeb Speech API(Chrome・Edge対応、インターネット接続必須)が手軽です。精度重視ならGoogle Cloud Speech-to-Text(月60分無料・医療用語対応)、ノイズキャンセリング重視ならAzure Speech Service(月5時間無料・方言対応)、介護・医療用語に特化した日本製ならAmiVoiceが選択肢です。最初はWeb Speech APIで試し、精度に問題があれば有料サービスに移行する段階的なアプローチを推奨します。

STEP 2:AIによる記録の構造化

音声認識で得られた自然な話し言葉を、正式な介護記録の形式に変換するAI処理を実装します。Claude APIにテキストを送信し、「利用者名・ケア種別・詳細内容・特記事項」のJSON形式で返してもらうプロンプトを設計します。「田中さんのごはんの介助やりました。全部食べてくれましたよ」という口語を「田中様の食事介助を実施。全量摂取。良好な食欲を維持されている」という正式記録に変換できます。AIに送信するテキストに個人を特定できる情報が含まれる場合は利用規約と個人情報保護法の確認が必須です。

STEP 3:データベース設計と実装

PostgreSQLで利用者マスタ・介護記録・スタッフマスタの3テーブルを設計します。介護記録テーブルには日時・記録者・ケア種別・詳細内容・音声データURL・特記事項を持たせます。user_idと記録日時にインデックスを設定して検索を高速化します。介護保険法により介護記録は最低2年間の保管が義務付けられているため、削除機能の実装には注意が必要です。個人情報は暗号化して保存し、毎日の自動バックアップを設定します。

STEP 4:ユーザーインターフェースの構築

介護現場でのタブレット・スマホ利用を前提にUIを設計します。マイクボタンは最低80px以上の大きさにし、手袋をしていても押せるタップエリアを確保します。録音中は赤いパルスアニメーションで視覚的フィードバックを提供します。音声認識中のテキストをリアルタイムで表示し、認識ミスを手動で修正できる編集機能も必要です。PWA化(manifest.json + Service Worker)でアプリストア不要のインストールとオフライン対応を実現します。

STEP 5:バックエンドAPIの構築

Node.js + Expressで5本のAPIエンドポイントを実装します。記録作成(POST /api/records)・記録取得(GET /api/records)・記録更新(PUT /api/records/:id)・統計(GET /api/stats)・CSVエクスポート(GET /api/export/csv)です。データベース操作はプレースホルダー($1, $2...)を使ってSQLインジェクション対策を徹底します。Python + FastAPIでも同等の実装が可能で、音声ファイルをAWS S3に保存する場合はmulterを使ったファイルアップロード処理も追加します。

STEP 6:認証・セキュリティの実装

JWTトークンによるスタッフ認証を実装します。パスワードはbcryptでハッシュ化し、JWT有効期限は24時間に設定します。権限は管理者・正社員・パートの3段階に分け、テーブルごとの閲覧・編集権限を設定します。全操作を監査ログに記録し(誰がいつ何をしたか)、SSL/TLSによるHTTPS通信を必須にします。2022年の個人情報保護法改正により漏洩時の報告義務が強化されているため、インシデント対応マニュアルの整備も必須です。

STEP 7:エクスポート・既存システム連携

月次レポート用のCSV/Excelエクスポート、PDF形式での印刷機能を実装します。主要介護ソフト(ほのぼのNEXT・ケアカルテ・福祉の森・ワイズマン)の多くはCSVインポートに対応しているため、カラム定義を合わせたCSV出力で連携できます。自動レポート機能は週次・月次でケア実績を集計してメール送付するcronジョブで実装します。PDFKitまたはPuppeteerでHTML→PDF変換を行います。

STEP 8:テスト・品質保証

Jestでユニットテスト(各APIエンドポイントの動作確認・認証なしではアクセスできないことの確認)を実装します。音声認識精度テストは方言・専門用語・ノイズ環境(テレビの音・複数人の話し声)でそれぞれ動作確認します。UIテストはCypressまたはPlaywrightでタブレット・スマホの操作性を自動テストします。最も重要なのは実際の介護スタッフによる現場テストです。5〜10名に2週間使ってもらいフィードバックを収集します。

STEP 9:デプロイ・運用開始

Dockerでアプリケーションをコンテナ化し、docker-composeでアプリ・DB・nginxをまとめて管理します。ホスティングはAWS EC2 + RDS(PostgreSQL)またはGoogle Cloud Runが信頼性・コスト面でおすすめです。GitHub Actionsで自動テスト・自動デプロイのCI/CDパイプラインを構築します。Sentryでエラー監視、CloudWatchまたはDatadogでサーバー監視を設定し、障害時に即時アラートを受け取れる体制を整えます。介護記録は業務に不可欠なため99.9%以上の稼働率を目指します。

STEP 10:運用改善・機能拡張

月次で利用状況分析(記録頻度・利用時間帯・エラー発生率)とスタッフへのヒアリングを行い、改善を継続します。フェーズ2の機能拡張として、写真・動画添付(S3へのアップロード)、バイタル自動連携(IoTセンサーとのAPI連携)、家族向け閲覧アプリ、外国人スタッフ向けの多言語対応(英語・ベトナム語)などが考えられます。AIが過去の記録から最適な文章を提案するレコメンド機能も追加できます。

開発・運用コストの目安

Web Speech API + Claude API + Node.js + PostgreSQLの構成なら、音声入力・AI構造化・記録一覧・CSV出力を備えたMVPを10万円程度から開発できます。

フェーズ 内容 費用目安
フェーズ1(MVP) 音声入力・AI構造化・記録保存・CSV出力 10万〜30万円
フェーズ2(機能追加) 認証・権限管理・PDF出力・既存ソフト連携 10万〜30万円
フェーズ3(拡張) PWA化・写真添付・バイタル連携・多言語対応 10万〜50万円
Google Cloud Speech API 月60分無料・以降従量 月0円〜5,000円
Claude API(AI構造化) 記録数に応じた従量課金 月3,000円〜10,000円
サーバー・DB(月額) AWS / GCP 月8,000円〜23,000円

スタッフ10名の施設で1日1人30分の記録時間を削減すると月150時間の短縮になり、時給1,500円換算で月22.5万円の人件費削減効果があります。システム運用費を差し引いても月20万円以上の改善効果が見込めます。

よくある質問

音声認識で方言や専門用語は正しく認識できますか?

Web Speech APIやGoogle Cloud Speech-to-Textは標準的な日本語の認識精度は高いですが、強い方言や専門用語は誤認識することがあります。AmiVoiceは介護・医療用語の辞書を持っているため専門用語の認識精度が高いです。また、AIによる構造化の段階で意味を補完できるため、多少の誤認識があっても正しい記録に変換できるケースも多くあります。テスト運用で実際の認識精度を確認してから本番導入することを強く推奨します。

個人情報をAI(Claude API)に送信しても問題ありませんか?

AnthropicのAPIはエンタープライズ契約でデータの学習利用に関する条件を交渉できます。現場での実装では、送信前に利用者名を匿名化(「田中様」→「利用者A」)してAIに送り、返ってきた構造化テキストに元の名前を差し込む方法でリスクを低減できます。個人情報保護法の観点から、AI活用に関してプライバシーポリシーへの明記と利用者・家族への説明が必要です。

既存の介護ソフトと連携できますか?

主要介護ソフトの多くはCSVインポートに対応しています。エクスポートするCSVのカラム定義を各ソフトの仕様に合わせることで連携できます。ほのぼのNEXT・ケアカルテ・ワイズマンなどはAPI連携の仕様を公開しているケースもあり、より深い連携が可能です。事前に導入している介護ソフトベンダーに連携可能かどうか確認することをおすすめします。

まとめ

Web Speech API + Claude AI + Node.js + PostgreSQLの構成で、介護記録の音声入力システムをMVP10万円程度から開発できます。音声入力による記録時間の短縮・AIによる記録品質の均一化・ケアしながらその場で記録できる利便性の3点が導入効果の核心です。月150時間以上の業務削減が見込め、投資対効果が明確なため施設への提案がしやすいジャンルです。介護DXの需要は今後も拡大が見込まれ、受託開発案件としても横展開しやすいシステムです。

開発のご相談や見積もりはお気軽にお問い合わせください。要件定義からリリースまで一貫してサポートします。

記憶力トレーニングゲームの作り方【デモあり】|JavaScript・難易度調整・ハイスコア機能の実装手順

ConoHa VPS「25秒で起動」は本当?実際に1時間以上かかった体験談