メインコンテンツへスキップ
Cartesiaは、モデルの使用量を クレジット で、エージェントの使用量を エージェントドル で計量します。 すべてのサブスクリプションプランには、月間のクレジット割当が含まれています。現在のプランと含まれるクレジットについては、cartesia.ai/pricing を参照してください。 クレジットは成功したリクエストでのみ消費されます。エラーではクレジットは消費されません。

概要

機能エンドポイントコスト
エージェントLineクレジットではなくUSDで分単位課金
TTS/tts/bytes, /tts/sse, /tts/websocket約1文字あたり1クレジット
PVC / Fine-tune TTS/tts/bytes, /tts/sse, /tts/websocket約1文字あたり1.5クレジット
STT/stt, /stt/websocket, /stt/turns/websocketエンドポイント、モデル、音声長によって異なります
PVC ファインチューニング/fine-tunes/createファインチューニング1回あたり100万クレジット
Infill/infill/bytes300クレジット + 1文字あたり約1クレジット
Voice Changer/voice-changer/bytes, /voice-changer/sse1秒あたり15クレジット

エージェント

Cartesiaのホスト型 Line ボイスエージェントは、米ドルで分単位で課金されます。これはクレジット残高に影響しません。
機能1分あたりの料金備考
エージェント通話$0.06すべてのボイスエージェント通話の基本料金
テレフォニー(アドオン)+$0.014Cartesia提供の電話番号を使用する場合の追加料金

Text-to-Speech

標準的なTTSは1文字あたり約1クレジットかかります。正確なクレジット数は、トランスクリプトの前処理によりわずかに変動する可能性があります。 これは、すべてのTTSエンドポイントに適用されます: /tts/bytes/tts/sse/tts/websocket

Pro Voice Clone を使用したTTS

Pro Voice Clone で音声を生成すると、1文字あたり約1.5クレジット(標準TTSの50%増し)かかります。これは、お客様のデータでファインチューニングされた専用モデルで実行されるためです。 これは Instant Voice Clones には適用されず、標準レートで課金されます。

Speech-to-Text

STTの料金は、モデルとバッチエンドポイント/リアルタイムエンドポイントのどちらを使用するかによって異なります。トランスクリプトが生成されなくても、無音区間も含まれます。
エンドポイントink-2ink-whisper
/stt/websocket音声1秒あたり3クレジット音声1秒あたり1クレジット
/stt/turns/websocket音声1秒あたり3クレジット音声1秒あたり1クレジット
/sttまだ利用不可音声2秒あたり1クレジット

Pro Voice Clone ファインチューニング

Pro Voice Clone の作成は、/fine-tunes/create を介してお客様のデータでモデルをファインチューニングするもので、1,000,000クレジットかかります。 トレーニングが成功した場合にのみ課金されます。Pro Voice Cloneはトレーニングされたベースモデルにピン留めされるため、新しいベースモデルや新しいデータでの再トレーニングには、さらに1,000,000クレジットかかります。

Infill

Infill は、既存の2つのクリップをつなぐ音声を生成します。各リクエストには固定の300クレジットに加えて、Infillトランスクリプトに適用される標準TTSレートがかかります。

Voice Changer

Voice Changerは入力音声をターゲットボイスに変換します。/voice-changer/bytes および /voice-changer/sse の両方で、入力音声1秒あたり15クレジットかかります。

使用量を確認する

usageページ で使用量を確認したり、サブスクリプションページ で現在の残高を確認したりできます。 さらに、クレジット使用量 および エージェント使用量 APIを使用して、プログラム的に使用量を確認できます。これには、admin APIキー の作成が必要です。