メインコンテンツへスキップ

概要

Realtime STT (Auto)

ほとんどの新規ボイスエージェントは、組み込みのターン検出を活用するために Realtime STT (Auto) /stt/turns/websocket から始めるべきです。
ユーザーターンとは、アプリが単一の応答ポイントとして扱う、ユーザーの発話の 1 つのまとまりです。 当社の /stt/turns/websocket エンドポイントは、ユーザーターンがモデルによって自動的にファイナライズされるため、「Realtime STT (Auto)」と呼んでいます。

Realtime STT (Manual)

Cartesia は、すでに VAD を独自管理しており、トランスクリプトを発行するタイミングを厳密に制御したいスタック向けに Realtime STT (Manual) /stt/websocket もサポートしています。 ユーザーが話し終わったら、"finalize" を送信してください。
音声活動検出 (VAD) は、音声中の発話と非発話を検出します。 当社の /stt/websocket エンドポイントは、ユーザーターンが独自の VAD によって手動でファイナライズされるため、「Realtime STT (Manual)」と呼んでいます。

Batch STT

事前に録音された音声を 1 リクエストで文字起こしするには Batch STT /stt を使用します。
Batch STT は録音全体を 1 リクエストで受け取りますが、リアルタイムエンドポイントは 1 秒あたり 1 秒分の音声データしか受け取れません。つまり、音声を「リアルタイムで」送信する必要があります。

比較

/stt/turns/websocket (auto)/stt/websocket (manual)/stt (batch)
トランスポートWebSocketWebSocketHTTP ファイルアップロード
最適な用途自然な対話型ボイスエージェント明示的なターン制御事前録音ファイルとオフラインジョブ
サポートモデルink-2 のみすべてink-whisper のみ。ink-2 近日対応
VAD を担当するのは?Cartesiaアプリ側N/A
ユーザーターン完了を判断するのは?Cartesiaアプリ側N/A
finalize を送るか?いいえはい。低レイテンシー確保のため必須いいえ
音声入力チャンクストリームチャンクストリーム完全なファイル
返ってくるもの完全なユーザーターンのトランスクリプトを含むターンイベント利用可能になり次第のトランスクリプトのデルタ1 つの完全なトランスクリプト
Ink 2 は現時点で英語のみをサポートしています。
今後数ヶ月のうちに他言語の追加を予定しています。

選び方

ボイスエージェントを構築する場合は、Realtime STT (Auto) /stt/turns/websocket から始めてください。 アプリが文字起こしの開始と終了タイミングを正確に把握している場合、またはトランスクリプトを発行するタイミングを厳密に制御したい場合は、Realtime STT (Manual) /stt/websocket を使い、ユーザーが話し終わったときに "finalize" を送信してください。 すでに完全に録音された音声を文字起こしする場合は、Batch STT /stt を使用してください。

次に進む

ターン検出を理解する

ボイスエージェントでユーザーターンイベントがどう動作するかを確認

落とし穴を避ける

文字起こしエラー、高レイテンシー、サーバーエラーをトラブルシューティング

コード例を見る

各 API エンドポイントを使ったシンプルな実装