メインコンテンツへスキップ
cartesia-mcp パッケージは、Model Context Protocol (MCP) を介してCartesiaを公開します。これにより、CursorClaude CodeCodex などのMCP対応クライアントから、カスタムスクリプトなしでボイスのリスト、TTSSTT の実行、発音辞書の管理、ボイスのクローンなどを行えます。

要件

  • uv — グローバルインストールなしで uvx 経由でサーバーを実行します
  • Python 3.13以上(uvx によって自動でインストールされます)
  • Cartesia APIキー(形式: sk_car_…)

セットアップ

APIキー を取得し、cartesia-mcp をエージェントに接続します。
npx add-mcp "uvx cartesia-mcp" --name cartesia-mcp --env 'CARTESIA_API_KEY=${CARTESIA_API_KEY}'

試してみる

エージェントに次のようなことを尋ねてみてください:
  • 利用可能なすべてのCartesiaボイスをリストする
  • 選択したボイスでテキストを音声に変換する(速度、音量、感情)
  • 音声ファイルをテキストに文字起こしする
  • 発音辞書を作成し、TTSで使用する
  • アカウントのクレジット使用量を確認する
  • 既存のボイスを別の言語にローカライズする
  • 音声ファイルを別のボイスに変換する

ツール

ツール説明
text_to_speechテキストを音声に変換; オプションで速度、音量、感情、発音辞書を指定可能
speech_to_text音声ファイルをバッチ文字起こし
list_voices利用可能なボイスをリスト(言語、検索、性別などでフィルタリング可能)
get_voiceIDでボイスのメタデータを取得
clone_voice音声サンプルからボイスをクローン
update_voiceクローンしたボイスの名前または説明を更新
delete_voiceクローンしたボイスを削除
voice_change別のボイスで音声を再レンダリング
localize_voiceボイスを別の言語または方言に適応
list_pronunciation_dicts発音辞書をリスト
create_pronunciation_dict発音辞書を作成
get_pronunciation_dictIDで発音辞書を取得
update_pronunciation_dict発音辞書を更新
delete_pronunciation_dict発音辞書を削除
get_credit_usage期間中のクレジット使用量(admin APIキー)
パラメータと戻り値の型については、cartesia-mcp のソース を参照してください。

出力ディレクトリ

デフォルトでは、生成された音声はサーバーの作業ディレクトリに書き込まれます。固定のフォルダを指定するには、envOUTPUT_DIRECTORY を追加します:
"env": {
  "CARTESIA_API_KEY": "YOUR_API_KEY",
  "OUTPUT_DIRECTORY": "~/cartesia-output"
}

ローカル音声ファイル

speech_to_textvoice_change のようなツールは、ディスク上の既存の音声ファイルへのパスが必要です。エージェントにプロンプトを送信する際、各ファイルへのフルパスを渡してください。

Admin APIキー

一部のツールは、admin APIキー(sk_car_admin_...)のみを受け付ける 管理エンドポイント を呼び出します。get_credit_usage を使用するには、CARTESIA_API_KEY に加えて envCARTESIA_ADMIN_API_KEY を設定してください。Admin キーは管理ルートでのみ機能します; play.cartesia.ai/keys のAPIキーはそれらのルートでは機能せず、Admin キーは生成ルートでは機能しません。組織管理者のみが、プレイグラウンドの Keys → Admin で Admin キーを発行できます。
"env": {
  "CARTESIA_API_KEY": "YOUR_API_KEY",
  "CARTESIA_ADMIN_API_KEY": "YOUR_ADMIN_API_KEY"
}

APIバージョン

Cartesia MCPは Cartesia-Version: 2026-03-01 を使用して構築されています。

cartesia-mcp

公式のCartesia MCPサーバー