バッチ Text-to-Speech

テキストから音声を生成し、WAVファイルとして保存します。

前提条件

このチュートリアルでは、シェル環境にCartesia APIキーが必要です。https://play.cartesia.ai/keys でAPIキーを取得し、次のコマンドを実行するか、.bashrc または .zshrc に追加してください:

export CARTESIA_API_KEY=<your api key here>

WAVファイルを生成する

Python
JavaScript
cURL

SDKをインストールする

pip install cartesia

音声を生成する

generate_speech.py

from cartesia import Cartesia
import os
import sys

client = Cartesia(api_key=os.getenv("CARTESIA_API_KEY"))

response = client.tts.generate(
    model_id="sonic-3.5",
    transcript="Hello, world! Welcome to Cartesia.",
    voice={"mode": "id", "id": "a0e99841-438c-4a64-b679-ae501e7d6091"},
    output_format={"container": "wav", "encoding": "pcm_f32le", "sample_rate": 44100},
)
sys.stdout.buffer.write(response.content)

実行する

python3 generate_speech.py | ffplay -nodisp -autoexit -loglevel quiet -
# Or save to a file:
python3 generate_speech.py > output.wav

SDKをインストールする

npm install @cartesia/cartesia-js

音声を生成する

generate_speech.mjs

import Cartesia from "@cartesia/cartesia-js";

const client = new Cartesia({ apiKey: process.env["CARTESIA_API_KEY"] });

const response = await client.tts.generate({
  model_id: "sonic-3.5",
  transcript: "Hello, world! Welcome to Cartesia.",
  voice: { mode: "id", id: "a0e99841-438c-4a64-b679-ae501e7d6091" },
  output_format: { container: "wav", encoding: "pcm_f32le", sample_rate: 44100 },
});

process.stdout.write(Buffer.from(await response.arrayBuffer()));

実行する

node generate_speech.mjs | ffplay -nodisp -autoexit -loglevel quiet -
# Or save to a file:
node generate_speech.mjs > output.wav

音声を生成する

generate_speech.sh

#!/usr/bin/env bash
curl -X POST "https://api.cartesia.ai/tts/bytes" \
  -H "Cartesia-Version: 2025-04-16" \
  -H "X-API-Key: $CARTESIA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model_id": "sonic-3.5",
    "transcript": "Hello, world! Welcome to Cartesia.",
    "voice": {"mode": "id", "id": "a0e99841-438c-4a64-b679-ae501e7d6091"},
    "output_format": {"container": "wav", "encoding": "pcm_s16le", "sample_rate": 44100}
  }'

実行する

bash generate_speech.sh | ffplay -nodisp -autoexit -loglevel quiet -
# Or save to a file:
bash generate_speech.sh > output.wav

上記で使用されているボイスは、プレイグラウンドで確認できます。その他のボイスは play.cartesia.ai/voices で閲覧できます。

次のステップ

Text-to-Speech クイックスタート

WebSocketストリーミングを使用してLLMの出力をリアルタイムでTTSにパイプします。

ボイスを選ぶ

ボイスを閲覧し、ユースケースに合った適切なボイスの選び方を学びます。

TTS 出力オーディオフォーマット

ユースケースに合った出力フォーマット、サンプルレート、エンコーディングを選びます。

Get Started

Text-to-Speech

Speech-to-Text

Tools

Integrations

Enterprise

バッチ Text-to-Speech

前提条件

WAVファイルを生成する

次のステップ

Text-to-Speech クイックスタート

ボイスを選ぶ

TTS 出力オーディオフォーマット

​前提条件

​WAVファイルを生成する

​次のステップ

Text-to-Speech クイックスタート

ボイスを選ぶ

TTS 出力オーディオフォーマット

前提条件

WAVファイルを生成する

次のステップ