Batch Speech-to-Text: このドキュメントは、Cartesia Ink のバッチ文字起こしエンドポイントにおける OpenAI SDK の互換性を説明します。リアルタイム文字起こしには Realtime Speech-to-Text (Auto) を使用してください。
エンドポイント
Cartesia ネイティブ:/stt - すべての機能をサポート
OpenAI 互換: /audio/transcriptions - OpenAI SDK 上の Whisper をドロップインで置き換え
OpenAI SDK の移行ガイド
OpenAI のベース URL をhttps://api.cartesia.ai に置き換えるだけで、Cartesia の互換レイヤーを使用できます:
パラメータのサポート
サポートされるパラメータ:file- 文字起こしする音声ファイルmodel- Cartesia の最新モデルにはink-whisperを使用language- 入力音声の言語(ISO-639-1 形式)timestamp_granularities- 単語レベルのタイムスタンプを取得するには["word"]を含める
Python の例
Node.js の例
API の直接利用
両エンドポイントは同じパラメータを受け取り、同じ JSON レスポンス形式を返します:Cartesia ネイティブエンドポイント
OpenAI 互換エンドポイント
OpenAI からの移行
OpenAI の Whisper API から Cartesia に移行するには:- ベース URL を更新する:
https://api.openai.com/v1からhttps://api.cartesia.aiに変更 - 認証情報を更新する: OpenAI API キーを Cartesia API キーに置き換え
- モデル名を更新する: OpenAI のモデル名の代わりに
ink-whisperを使用 - 同じエンドポイントを使い続ける:
/audio/transcriptionsを引き続き使用 - 未サポートのパラメータを避ける:
prompt、temperature、response_formatパラメータを削除 - timestamp_granularities を使用する(オプション): 単語レベルのタイムスタンプを取得するには
timestamp_granularities: ["word"]を追加