Skip to main content

前提条件

  1. Cartesia アカウント
  2. API キー
  3. FFmpeg のインストール (任意ですが推奨)。
FFmpeg は Cartesia API の使用に必須ではありませんが、音声ファイルの保存、再生、変換に便利なので、以下の例で使用します。お使いのプラットフォームのパッケージマネージャーでインストールできます:
# macOS
brew install ffmpeg

# Debian/Ubuntu
sudo apt install ffmpeg

# Fedora
dnf install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

最初の発話を生成する

最初の発話を生成するには、YOUR_API_KEY を置き換えてターミナルで次のコマンドを実行します:
curl -N -X POST "https://api.cartesia.ai/tts/bytes" \
        -H "Cartesia-Version: 2025-04-16" \
        -H "Authorization: Bearer YOUR_API_KEY" \
        -H "Content-Type: application/json" \
        -d '{"transcript": "Welcome to Cartesia Sonic!", "model_id": "sonic-2", "voice": {"mode":"id", "id": "694f9389-aac1-45b6-b726-9d9369183238"}, "output_format":{"container":"wav", "encoding":"pcm_f32le", "sample_rate":44100}}' > sonic-2.wav
YOUR_API_KEY を必ず実際のAPIキーに置き換えてください。そうしないとコマンドは何も出力しません!
生成された sonic-2.wav ファイルは、afplay sonic-2.wav(macOSの場合)または ffplay sonic-2.wav(FFmpegがインストールされたシステム)で再生できます。ファイルエクスプローラーでダブルクリックしても再生できます。
bytes エンドポイントはさまざまな出力フォーマットをサポートしており、音声を事前に保存しておきたいバッチ用途に最適です。これに対して、Cartesia の WebSocket および Server-Sent Events エンドポイントは、トランスコーディングによるレイテンシのオーバーヘッドを避けるため、生の PCM 音声をストリーミング送出します。
上記で使用したボイスは プレイグラウンド で確認できます。