メインコンテンツへスキップ
Ink 2 は、Cartesia が提供する最速かつ最も精度の高いストリーミング音声認識モデルです。あらゆるストリーミング STT の中で最も低い単語誤り率と最良のターン検出を備え、本番環境のボイスエージェント向けに構築されています。電話番号、日付、メールアドレスなどの構造化データを最初から正しく書き起こし、話者が話し始めと話し終わりを認識するので、別途 VAD(音声区間検出)を組み込む必要がありません。 ターン検出は組み込みです。Ink 2 は turn.startturn.updateturn.eager_endturn.resumeturn.end というターンイベントの完全なライフサイクルを発行するため、エージェントはいつ聞き、考え、応答すべきかを正確に把握できます。状態機械については ターンイベント を、ターン検出ありまたはなしで Ink 2 を実行する方法については STT エンドポイントの比較 を参照してください。

モデル

モデルリリース日言語ステータス
ink-2May 22, 2026enPreview
ink-whisper の情報については、旧 STT モデル のページを参照してください。

次のステップ

ターン検出を理解する

ボイスエージェントでユーザーのターンイベントがどう機能するかを確認する

オンラインで試す

サインアップやコードなしで Ink 2 をテストする

API を使う

Realtime STT API で構築を始める

SDK を使う

実際のコードを見てみる

統合

LiveKit、Pipecat、その他のボイスエージェントビルダー

Deepgram Flux から移行する

Deepgram のターンベース音声