Cartesia のモデルは、広く入手可能な GPU ハードウェア上で動作するほど移植性に優れています。
下表は、TTS および STT モデルワーカーの推奨同時実行数を示しています。
| GPU | Sonic 同時実行数 | Ink-2 同時実行数 |
|---|
| A10G | 4 | |
| L40S | 8 | 128 |
| A100 | 8 | |
| H100 (MIG) | 8 | 128 |
| H100 | 16 | 256 |
パフォーマンスメトリクスの詳細は メトリクス を参照してください。
互換性マトリクス
Kubernetes とツール
| コンポーネント | 検証済みバージョン |
|---|
| Kubernetes (AWS EKS) | 1.31 |
| Kubernetes (GCP GKE) | 1.34(Stable チャネル) |
GPU
| コンポーネント | 値 |
|---|
| GPU アーキテクチャ | Ampere 以降(A10G、A100、L40S、H100、H200) |
| GPU メモリ | デバイスあたり最低 24 GB |
| ワーカーコンテナ OS | Ubuntu 22.04 LTS |
| CUDA | 12.9 — ワーカーイメージにバンドル済み、ホストへのインストールは不要 |
MIG (Multi-Instance GPU)
| プラットフォーム | MIG サポート |
|---|
| GKE | ノードプールの gpu_partition_size でサポート |
| EKS | Terraform 上では未設定 — 必要に応じて GPU Operator で手動セットアップ |
| Docker Compose / Swarm | --mig フラグと nvidia-smi -L の UUID でサポート(Docker を参照) |
ハードウェアを選定する際は、レイテンシー(TTFA)とスループットのトレードオフを考慮する必要があります。
各種 GPU でのテストメトリクスは下表を参照してください:
以下のベンチマークは Sonic 3.5 のもので、リリースタグ sonic-20260503 以降が必要です。2026 年 4 月更新。
H100
H100 (MIG)
L40S
A100
A10
| 同時実行数 | TTFA P50 (ms) | TTFA P95 (ms) | RTF P50 | RTF P95 | スループット (chars/s) |
|---|
| 1 | 50 | 55 | 0.10 | 0.10 | 105 |
| 2 | 50 | 55 | 0.10 | 0.10 | 200 |
| 4 | 80 | 115 | 0.15 | 0.15 | 325 |
| 8 | 120 | 165 | 0.20 | 0.20 | 550 |
| 12 | 125 | 225 | 0.20 | 0.25 | 760 |
| 16 | 195 | 300 | 0.30 | 0.30 | 795 |
| 同時実行数 | TTFA P50 (ms) | TTFA P95 (ms) | RTF P50 | RTF P95 | スループット (chars/s) |
|---|
| 1 | 60 | 65 | 0.10 | 0.15 | 125 |
| 2 | 65 | 100 | 0.15 | 0.15 | 230 |
| 4 | 110 | 150 | 0.15 | 0.20 | 385 |
| 8 | 165 | 230 | 0.25 | 0.25 | 575 |
| 12 | 215 | 290 | 0.30 | 0.35 | 730 |
| 16 | 290 | 340 | 0.35 | 0.40 | 780 |
| 同時実行数 | TTFA P50 (ms) | TTFA P95 (ms) | RTF P50 | RTF P95 | スループット (chars/s) |
|---|
| 1 | 45 | 50 | 0.10 | 0.10 | 100 |
| 2 | 50 | 55 | 0.15 | 0.15 | 180 |
| 4 | 75 | 105 | 0.15 | 0.15 | 330 |
| 8 | 125 | 165 | 0.20 | 0.25 | 485 |
| 同時実行数 | TTFA P50 (ms) | TTFA P95 (ms) | RTF P50 | RTF P95 | スループット (chars/s) |
|---|
| 1 | 60 | 65 | 0.15 | 0.15 | 85 |
| 2 | 70 | 85 | 0.15 | 0.15 | 150 |
| 4 | 100 | 135 | 0.20 | 0.20 | 285 |
| 8 | 145 | 260 | 0.25 | 0.30 | 410 |
| 同時実行数 | TTFA P50 (ms) | TTFA P95 (ms) | RTF P50 | RTF P95 | スループット (chars/s) |
|---|
| 1 | 80 | 85 | 0.15 | 0.20 | 75 |
| 2 | 90 | 155 | 0.20 | 0.20 | 130 |
| 4 | 165 | 240 | 0.25 | 0.30 | 210 |
| 8 | 270 | 355 | 0.40 | 0.45 | 305 |
これらをもとにワーカーごとの設定を行います。アプリケーションのスケーリング要件に対応するには、オートスケーリングの挙動を設定する必要があります。詳細は オートスケーリング を参照してください。