API リファレンス
入力音声のエンコーディング。利用可能なオプション:
pcm_s16le、pcm_s32le、pcm_f16le、pcm_f32le、pcm_mulaw、pcm_alaw。入力音声のサンプルレート (Hz)。送信する音声の実際のサンプルレートと一致している必要があります。
リアルタイムエンドポイントとは異なり、バッチ STT はコンテナ化された音声 (例:
wav、mp3) も受け付けます。encoding と sample_rate のクエリパラメータは、生 PCM 音声を使用するときにのみ指定してください。チートシート
生の音声を送信する場合、エンコーディングとサンプルレートは上流ソースが生成するものと一致している必要があります。 まずは次の経験則を参考にしてください。| エンコーディング | ビット深度 | 一般的なソース | 推奨サンプルレート |
|---|---|---|---|
pcm_s16le | 16-bit int | ボイスエージェントプラットフォーム、WAV ファイル、ほとんどの音声キャプチャライブラリ | 8000–48000 |
pcm_s32le | 32-bit int | プロフェッショナルオーディオインターフェース、DAW | 44100–48000 |
pcm_f16le | 16-bit float | 一般的でない。一部の半精度 ML パイプライン | 16000–48000 |
pcm_f32le | 32-bit float | ブラウザ (Web Audio API)、ML モデル (PyTorch、NumPy/SciPy) | 16000–48000 |
pcm_mulaw | 8-bit compressed | 北米/日本のテレフォニー (G.711μ)、Twilio | 8000 |
pcm_alaw | 8-bit compressed | 欧州/国際テレフォニー (G.711A) | 8000 |
テレフォニー
北米と日本
多くのお客様は Twilio 経由で音声出力を送信します。Twilio で送信されるすべての音声は、サンプルレート 8 kHz の µ-law エンコーディングにトランスコードされます。ヨーロッパ、インド、その他
ヨーロッパおよび国際的な電話ネットワークの標準 (G.711A) は、サンプルレート 8 kHz の 8 ビット A-law 圧縮 PCM です。ボイスエージェントプラットフォーム
多くのボイスエージェントプラットフォームは、パイプラインで 16 kHz サンプルレートのpcm_s16le を使用します。特定のプラットフォームでの仕様は必ず確認してください。
Web ブラウザ
Web Audio API を通じてマイク音声をキャプチャする場合、サンプルはpcm_f32le です。AudioContext (およびそこからフレームを読み取る AudioWorklet ノード) は常に 32-bit float を生成します。
キャプチャ時のサンプルレートは、ユーザーの入力ハードウェアが報告する値がデフォルトとなり、一般的には 48 kHz、ときには 44.1 kHz になります。AudioContext.sampleRate から読み取り、同じ値を送信してください。
pcm_s16le にダウンサンプリングすると、精度への影響をほぼ受けずに帯域を削減できます。
パラメータを再確認する
モデルは、接続時に宣言したencoding と sample_rate を使ってバイト列をデコードします。これらのパラメーターが正しくなくても、Cartesia のサーバーは エラーを返さない場合があります。
パラメーターを検証するには、音声データを保存し、ffplay で再生してみてください:
encoding か sample_rate がデータと一致していません。音声がきれいに再生されるように修正し、その同じ値を API に送ってください。