cartesia-mcp パッケージは、Model Context Protocol (MCP) を介してCartesiaを公開します。これにより、Cursor、Claude Code、Codex などのMCP対応クライアントから、カスタムスクリプトなしでボイスのリスト、TTS と STT の実行、発音辞書の管理、ボイスのクローンなどを行えます。
要件
- uv — グローバルインストールなしで
uvx経由でサーバーを実行します - Python 3.13以上(
uvxによって自動でインストールされます) - Cartesia APIキー(形式:
sk_car_…)
セットアップ
APIキー を取得し、cartesia-mcp をエージェントに接続します。- CLI (推奨)
- Cursor
- Claude Code
試してみる
エージェントに次のようなことを尋ねてみてください:- 利用可能なすべてのCartesiaボイスをリストする
- 選択したボイスでテキストを音声に変換する(速度、音量、感情)
- 音声ファイルをテキストに文字起こしする
- 発音辞書を作成し、TTSで使用する
- アカウントのクレジット使用量を確認する
- 既存のボイスを別の言語にローカライズする
- 音声ファイルを別のボイスに変換する
ツール
| ツール | 説明 |
|---|---|
text_to_speech | テキストを音声に変換; オプションで速度、音量、感情、発音辞書を指定可能 |
speech_to_text | 音声ファイルをバッチ文字起こし |
list_voices | 利用可能なボイスをリスト(言語、検索、性別などでフィルタリング可能) |
get_voice | IDでボイスのメタデータを取得 |
clone_voice | 音声サンプルからボイスをクローン |
update_voice | クローンしたボイスの名前または説明を更新 |
delete_voice | クローンしたボイスを削除 |
voice_change | 別のボイスで音声を再レンダリング |
localize_voice | ボイスを別の言語または方言に適応 |
list_pronunciation_dicts | 発音辞書をリスト |
create_pronunciation_dict | 発音辞書を作成 |
get_pronunciation_dict | IDで発音辞書を取得 |
update_pronunciation_dict | 発音辞書を更新 |
delete_pronunciation_dict | 発音辞書を削除 |
get_credit_usage | 期間中のクレジット使用量(admin APIキー) |
高度な設定
高度な設定
出力ディレクトリ
デフォルトでは、生成された音声はサーバーの作業ディレクトリに書き込まれます。固定のフォルダを指定するには、env に OUTPUT_DIRECTORY を追加します:ローカル音声ファイル
speech_to_text や voice_change のようなツールは、ディスク上の既存の音声ファイルへのパスが必要です。エージェントにプロンプトを送信する際、各ファイルへのフルパスを渡してください。Admin APIキー
一部のツールは、admin APIキー(sk_car_admin_...)のみを受け付ける 管理エンドポイント を呼び出します。get_credit_usage を使用するには、CARTESIA_API_KEY に加えて env に CARTESIA_ADMIN_API_KEY を設定してください。Admin キーは管理ルートでのみ機能します; play.cartesia.ai/keys のAPIキーはそれらのルートでは機能せず、Admin キーは生成ルートでは機能しません。組織管理者のみが、プレイグラウンドの Keys → Admin で Admin キーを発行できます。APIバージョン
Cartesia MCPはCartesia-Version: 2026-03-01 を使用して構築されています。cartesia-mcp
公式のCartesia MCPサーバー