メインコンテンツへスキップ
Cartesia のモデルは、広く入手可能な GPU ハードウェア上で動作するほど移植性に優れています。 下表は、TTS および STT モデルワーカーの推奨同時実行数を示しています。
GPUSonic 同時実行数Ink-2 同時実行数
A10G4
L40S8128
A1008
H100 (MIG)8128
H10016256
パフォーマンスメトリクスの詳細は メトリクス を参照してください。

互換性マトリクス

Kubernetes とツール

コンポーネント検証済みバージョン
Kubernetes (AWS EKS)1.31
Kubernetes (GCP GKE)1.34(Stable チャネル)

GPU

コンポーネント
GPU アーキテクチャAmpere 以降(A10G、A100、L40S、H100、H200)
GPU メモリデバイスあたり最低 24 GB
ワーカーコンテナ OSUbuntu 22.04 LTS
CUDA12.9 — ワーカーイメージにバンドル済み、ホストへのインストールは不要

MIG (Multi-Instance GPU)

プラットフォームMIG サポート
GKEノードプールの gpu_partition_size でサポート
EKSTerraform 上では未設定 — 必要に応じて GPU Operator で手動セットアップ
Docker Compose / Swarm--mig フラグと nvidia-smi -L の UUID でサポート(Docker を参照)
ハードウェアを選定する際は、レイテンシー(TTFA)とスループットのトレードオフを考慮する必要があります。 各種 GPU でのテストメトリクスは下表を参照してください:
以下のベンチマークは Sonic 3.5 のもので、リリースタグ sonic-20260503 以降が必要です。2026 年 4 月更新。
同時実行数TTFA P50 (ms)TTFA P95 (ms)RTF P50RTF P95スループット (chars/s)
150550.100.10105
250550.100.10200
4801150.150.15325
81201650.200.20550
121252250.200.25760
161953000.300.30795
これらをもとにワーカーごとの設定を行います。アプリケーションのスケーリング要件に対応するには、オートスケーリングの挙動を設定する必要があります。詳細は オートスケーリング を参照してください。