Skip to main content
テキストから音声を生成し、WAVファイルとして保存します。

前提条件

このチュートリアルでは、シェル環境にCartesia APIキーが必要です。https://play.cartesia.ai/keys でAPIキーを取得し、次のコマンドを実行するか、.bashrc または .zshrc に追加してください:
export CARTESIA_API_KEY=<your api key here>

WAVファイルを生成する

1

SDKをインストールする

pip install cartesia
2

音声を生成する

generate_speech.py
from cartesia import Cartesia
import os
import sys

client = Cartesia(api_key=os.getenv("CARTESIA_API_KEY"))

response = client.tts.generate(
    model_id="sonic-3.5",
    transcript="Hello, world! Welcome to Cartesia.",
    voice={"mode": "id", "id": "694f9389-aac1-45b6-b726-9d9369183238"},
    output_format={"container": "wav", "encoding": "pcm_f32le", "sample_rate": 44100},
)
sys.stdout.buffer.write(response.content)
3

実行する

python3 generate_speech.py | ffplay -nodisp -autoexit -loglevel quiet -
# Or save to a file:
python3 generate_speech.py > output.wav
上記で使用されているボイスは、プレイグラウンドで確認できます。その他のボイスは play.cartesia.ai/voices で閲覧できます。

次のステップ

Text-to-Speech クイックスタート

WebSocketストリーミングを使用してLLMの出力をリアルタイムでTTSにパイプします。

ボイスを選ぶ

ボイスを閲覧し、ユースケースに合った適切なボイスの選び方を学びます。

TTS 出力オーディオフォーマット

ユースケースに合った出力フォーマット、サンプルレート、エンコーディングを選びます。