概要
| 機能 | エンドポイント | コスト |
|---|---|---|
| エージェント | Line | クレジットではなくUSDで分単位課金 |
| TTS | /tts/bytes, /tts/sse, /tts/websocket | 約1文字あたり1クレジット |
| PVC / Fine-tune TTS | /tts/bytes, /tts/sse, /tts/websocket | 約1文字あたり1.5クレジット |
| STT | /stt, /stt/websocket, /stt/turns/websocket | エンドポイント、モデル、音声長によって異なります |
| PVC ファインチューニング | /fine-tunes/create | ファインチューニング1回あたり100万クレジット |
| Infill | /infill/bytes | 300クレジット + 1文字あたり約1クレジット |
| Voice Changer | /voice-changer/bytes, /voice-changer/sse | 1秒あたり15クレジット |
エージェント
Cartesiaのホスト型 Line ボイスエージェントは、米ドルで分単位で課金されます。これはクレジット残高に影響しません。| 機能 | 1分あたりの料金 | 備考 |
|---|---|---|
| エージェント通話 | $0.06 | すべてのボイスエージェント通話の基本料金 |
| テレフォニー(アドオン) | +$0.014 | Cartesia提供の電話番号を使用する場合の追加料金 |
Text-to-Speech
標準的なTTSは1文字あたり約1クレジットかかります。正確なクレジット数は、トランスクリプトの前処理によりわずかに変動する可能性があります。 これは、すべてのTTSエンドポイントに適用されます:/tts/bytes、/tts/sse、/tts/websocket。
Pro Voice Clone を使用したTTS
Pro Voice Clone で音声を生成すると、1文字あたり約1.5クレジット(標準TTSの50%増し)かかります。これは、お客様のデータでファインチューニングされた専用モデルで実行されるためです。 これは Instant Voice Clones には適用されず、標準レートで課金されます。Speech-to-Text
STTの料金は、モデルとバッチエンドポイント/リアルタイムエンドポイントのどちらを使用するかによって異なります。トランスクリプトが生成されなくても、無音区間も含まれます。| エンドポイント | ink-2 | ink-whisper |
|---|---|---|
/stt/websocket | 音声1秒あたり3クレジット | 音声1秒あたり1クレジット |
/stt/turns/websocket | 音声1秒あたり3クレジット | 音声1秒あたり1クレジット |
/stt | まだ利用不可 | 音声2秒あたり1クレジット |
Pro Voice Clone ファインチューニング
Pro Voice Clone の作成は、/fine-tunes/create を介してお客様のデータでモデルをファインチューニングするもので、1,000,000クレジットかかります。
トレーニングが成功した場合にのみ課金されます。Pro Voice Cloneはトレーニングされたベースモデルにピン留めされるため、新しいベースモデルや新しいデータでの再トレーニングには、さらに1,000,000クレジットかかります。
Infill
Infill は、既存の2つのクリップをつなぐ音声を生成します。各リクエストには固定の300クレジットに加えて、Infillトランスクリプトに適用される標準TTSレートがかかります。Voice Changer
Voice Changerは入力音声をターゲットボイスに変換します。/voice-changer/bytes および /voice-changer/sse の両方で、入力音声1秒あたり15クレジットかかります。