Ink 2

Ink 2 は、Cartesia が提供する最速かつ最も精度の高いストリーミング音声認識モデルです。あらゆるストリーミング STT の中で最も低い単語誤り率と最良のターン検出を備え、本番環境のボイスエージェント向けに構築されています。電話番号、日付、メールアドレスなどの構造化データを最初から正しく書き起こし、話者が話し始めるタイミングと話し終えるタイミングを認識するため、別途 VAD（音声区間検出）を用意する必要がありません。ターン検出は組み込みです。Ink 2 は turn.start、turn.update、turn.eager_end、turn.resume、turn.end というターンイベントの完全なライフサイクルを発行するため、エージェントはいつ聞き、考え、応答すべきかを正確に把握できます。ステートマシンについてはターンイベントを、ターン検出のありなしで Ink 2 を実行する方法については STT エンドポイントの比較を参照してください。

モデル	リリース日	言語	ステータス
`ink-2`	2026年5月22日	`en`	安定版

ink-whisper の情報については、旧 STT モデルのページを参照してください。

次のステップ

オンラインで試す

サインアップやコード不要

構築を始める

ガイドとベストプラクティス

非推奨モデル

Inkで構築する

⌘I

はじめに

Text-to-Speech

Speech-to-Text

ツール

連携

エンタープライズ

次のステップ

オンラインで試す

構築を始める

​次のステップ

オンラインで試す

構築を始める

次のステップ