概要
Realtime STT (Auto)
ほとんどの新規ボイスエージェントは、組み込みのターン検出を活用するために Realtime STT (Auto)/stt/turns/websocket から始めるべきです。
ユーザーターンとは、アプリが単一の応答ポイントとして扱う、ユーザーの発話の 1 つのまとまりです。
当社の /stt/turns/websocket エンドポイントは、ユーザーターンがモデルによって自動的にファイナライズされるため、「Realtime STT (Auto)」と呼んでいます。
Realtime STT (Manual)
Cartesia は、すでに VAD を独自管理しており、トランスクリプトを発行するタイミングを厳密に制御したいスタック向けに Realtime STT (Manual)/stt/websocket もサポートしています。
ユーザーが話し終わったら、"finalize" を送信してください。
音声活動検出 (VAD) は、音声中の発話と非発話を検出します。
当社の /stt/websocket エンドポイントは、ユーザーターンが独自の VAD によって手動でファイナライズされるため、「Realtime STT (Manual)」と呼んでいます。
Batch STT
事前に録音された音声を 1 リクエストで文字起こしするには Batch STT/stt を使用します。
Batch STT は録音全体を 1 リクエストで受け取りますが、リアルタイムエンドポイントは 1 秒あたり 1 秒分の音声データしか受け取れません。つまり、音声を「リアルタイムで」送信する必要があります。
比較
/stt/turns/websocket (auto) | /stt/websocket (manual) | /stt (batch) | |
|---|---|---|---|
| トランスポート | WebSocket | WebSocket | HTTP ファイルアップロード |
| 最適な用途 | 自然な対話型ボイスエージェント | 明示的なターン制御 | 事前録音ファイルとオフラインジョブ |
| サポートモデル | ink-2 のみ | すべて | ink-whisper のみ。ink-2 近日対応 |
| VAD を担当するのは? | Cartesia | アプリ側 | N/A |
| ユーザーターン完了を判断するのは? | Cartesia | アプリ側 | N/A |
finalize を送るか? | いいえ | はい。低レイテンシー確保のため必須 | いいえ |
| 音声入力 | チャンクストリーム | チャンクストリーム | 完全なファイル |
| 返ってくるもの | 完全なユーザーターンのトランスクリプトを含むターンイベント | 利用可能になり次第のトランスクリプトのデルタ | 1 つの完全なトランスクリプト |
Ink 2 は現時点で英語のみをサポートしています。
今後数ヶ月のうちに他言語の追加を予定しています。
今後数ヶ月のうちに他言語の追加を予定しています。
選び方
ボイスエージェントを構築する場合は、Realtime STT (Auto)/stt/turns/websocket から始めてください。
アプリが文字起こしの開始と終了タイミングを正確に把握している場合、またはトランスクリプトを発行するタイミングを厳密に制御したい場合は、Realtime STT (Manual) /stt/websocket を使い、ユーザーが話し終わったときに "finalize" を送信してください。
すでに完全に録音された音声を文字起こしする場合は、Batch STT /stt を使用してください。
次に進む
ターン検出を理解する
ボイスエージェントでユーザーターンイベントがどう動作するかを確認
落とし穴を避ける
文字起こしエラー、高レイテンシー、サーバーエラーをトラブルシューティング
コード例を見る
各 API エンドポイントを使ったシンプルな実装