エンドポイントの比較

概要

Realtime STT (Auto)

ほとんどの新規ボイスエージェントは、組み込みのターン検出を活用するために Realtime STT (Auto) /stt/turns/websocket から始めるべきです。

ユーザーターンとは、アプリが単一の応答ポイントとして扱う、ユーザーの発話の 1 つのまとまりです。当社の /stt/turns/websocket エンドポイントは、ユーザーターンがモデルによって自動的にファイナライズされるため、「Realtime STT (Auto)」と呼んでいます。

Realtime STT (Manual)

Cartesia は、すでに VAD を独自管理しており、トランスクリプトを発行するタイミングを厳密に制御したいスタック向けに Realtime STT (Manual) /stt/websocket もサポートしています。ユーザーが話し終わったら、"finalize" を送信してください。

音声区間検出 (VAD) は、音声中の発話と非発話を検出します。当社の /stt/websocket エンドポイントは、ユーザーターンが独自の VAD によって手動でファイナライズされるため、「Realtime STT (Manual)」と呼んでいます。

Batch STT

事前に録音された音声を 1 リクエストで文字起こしするには Batch STT /stt を使用します。

Batch STT は録音全体を 1 リクエストで受け取りますが、リアルタイムエンドポイントは 1 秒あたり 1 秒分の音声データしか受け取れません。つまり、音声を「リアルタイムで」送信する必要があります。

比較

	`/stt/turns/websocket` (auto)	`/stt/websocket` (manual)	`/stt` (batch)
トランスポート	WebSocket	WebSocket	HTTP ファイルアップロード
最適な用途	自然な対話型ボイスエージェント	明示的なターン制御	事前録音ファイルとオフラインジョブ
サポートモデル	`ink-2` のみ	すべて	`ink-whisper` のみ
VAD を担当するのは？	Cartesia	アプリ側	N/A
ユーザーターン完了を判断するのは？	Cartesia	アプリ側	N/A
`finalize` を送るか？	いいえ	はい。低レイテンシー確保のため必須	いいえ
音声入力	チャンクストリーム	チャンクストリーム	完全なファイル
返ってくるもの	完全なユーザーターンのトランスクリプトを含むターンイベント	利用可能になり次第のトランスクリプトのデルタ	1 つの完全なトランスクリプト

Ink 2 は現時点で英語のみをサポートしています。
今後数ヶ月のうちに他言語の追加を予定しています。

選び方

ボイスエージェントを構築する場合は、Realtime STT (Auto) /stt/turns/websocket から始めてください。アプリが文字起こしの開始と終了タイミングを正確に把握している場合、またはトランスクリプトを発行するタイミングを厳密に制御したい場合は、Realtime STT (Manual) /stt/websocket を使い、ユーザーが話し終わったときに "finalize" を送信してください。すでに完全に録音された音声を文字起こしする場合は、Batch STT /stt を使用してください。

次に進む

ターン検出を理解する

ボイスエージェントでユーザーターンイベントがどう動作するかを確認

モデルの挙動をトラブルシューティングする

文字起こしエラー、高レイテンシー、サーバーエラー

コード例を見る

各 API エンドポイントを使ったシンプルなスクリプト

はじめに

Text-to-Speech

Speech-to-Text

ツール

連携

エンタープライズ

エンドポイントの比較

概要

Realtime STT (Auto)

Realtime STT (Manual)

Batch STT

比較

選び方

次に進む

ターン検出を理解する

モデルの挙動をトラブルシューティングする

コード例を見る

​概要

​Realtime STT (Auto)

​Realtime STT (Manual)

​Batch STT

​比較

​選び方

​次に進む

ターン検出を理解する

モデルの挙動をトラブルシューティングする

コード例を見る

概要

Realtime STT (Auto)

Realtime STT (Manual)

Batch STT

比較

選び方

次に進む