Ink 2 は現時点で英語のみをサポートしています。
今後数ヶ月のうちに他言語の追加を予定しています。
今後数ヶ月のうちに他言語の追加を予定しています。
接続
Deepgram の WebSocket URL と認証ヘッダーを Cartesia のものに置き換えます。cartesia_version クエリパラメータで渡し、API キーの代わりに短命の アクセストークン を access_token クエリパラメータで使用してください。
クエリパラメータ
| Deepgram Flux | Cartesia Ink 2 | 備考 |
|---|---|---|
model=flux-general-en(必須) | model=ink-2(必須) | 全オプションは STT モデル を参照してください。 |
encoding=linear16(必須) | encoding=pcm_s16le(必須) | linear16 → pcm_s16le、linear32 → pcm_s32le、mulaw → pcm_mulaw、alaw → pcm_alaw。 |
sample_rate(必須) | sample_rate(必須) | 変更なし。 |
language_hint | — | 現在は英語のみサポート。多言語対応は近日公開予定です! |
| — | cartesia_version=2026-03-01 | 詳細は API の規約 を参照してください。 |
eager_eot_threshold | — | ターン検出はモデルによって制御されます。設定機能は近日公開予定です! |
eot_threshold | — | ターン検出はモデルによって制御されます。設定機能は近日公開予定です! |
eot_timeout_ms | — | ターン検出はモデルによって制御されます。設定機能は近日公開予定です! |
keyterm | — | 近日公開! |
音声の送信
両 API とも、バイナリ WebSocket フレームとして生の音声を受け取ります。音声パイプラインの変更はなく、宣言したencoding と sample_rate にバイトが一致することを確認するだけです。
セッションをクローズするには、JSON エンコードされた WebSocket テキストフレームを送信します:
Configure 制御メッセージに相当するものはありません。エンドオブターンを設定する必要がないためです。
イベントマッピング
Flux はすべてのターンイベントを単一のTurnInfo メッセージに event 判別子付きでラップします。Cartesia はイベントごとに 1 つのメッセージタイプを発行し、その型はトップレベルの type フィールドにあります。
Deepgram Flux (TurnInfo.event) | Cartesia (type) | transcript を含むか? |
|---|---|---|
StartOfTurn | turn.start | いいえ(Flux: はい) |
Update | turn.update | はい |
EagerEndOfTurn | turn.eager_end | はい |
TurnResumed | turn.resume | いいえ(Flux: はい) |
EndOfTurn | turn.end | はい |
Connected | connected | — |
Error | error | — |
TurnInfo メッセージ:
turn.end イベントになります:
transcript はターン内で累積的です。
Ink 2 には 発行されるトランスクリプトはすべて確定 (final) であるという追加の利点があります。モデルが確信を持つまで単語は発行されません。後続のイベントは、それ以前のイベントで送られたテキストを変更することなく、トランスクリプトに追加するだけです。
同等機能のないフィールド
Cartesia は以下を発行しません:turn_indexaudio_window_startaudio_window_endwordsend_of_turn_confidencesequence_idlanguageslanguages_hinted