移行ガイド

Ink は 2 つのリアルタイム文字起こしモードをサポートしています:

ほとんどの音声認識 API は両方の動作を組み合わせていますが、Cartesia はモデルのパフォーマンス向上のためにこれらを分離しています。 ほとんどのエージェントでは自動ファイナライズが推奨されます。 一方で、手動ファイナライズが必要なユースケースも多くあります。例えば:

ガイド

Deepgram Turn-based Audio (Flux)
Deepgram Live Audio (Nova)
- 自動ファイナライズ
  Ink がトランスクリプトを自動的にファイナライズします
- 手動ファイナライズ
  クライアントがトランスクリプトをファイナライズするタイミングを決定します
ElevenLabs Realtime Speech to Text
- 自動ファイナライズ
  ElevenLabs の commit_strategy=vad に類似
- 手動ファイナライズ
  ElevenLabs の commit_strategy=manual に類似
OpenAI Realtime Transcription
- 自動ファイナライズ
  OpenAI の turn_detection: server_vad に類似
- 手動ファイナライズ
  OpenAI の turn_detection: null に類似
OpenAI Speech to Text
バッチ音声文字起こし