ハードウェアの選定

Cartesia のモデルは、広く入手可能な GPU ハードウェア上で動作するほど移植性に優れています。下表は、TTS および STT モデルワーカーの推奨同時実行数を示しています。

パフォーマンスメトリクスの詳細はメトリクスを参照してください。

互換性マトリクス

コンポーネント	検証済みバージョン
Kubernetes (AWS EKS)	`1.31`
Kubernetes (GCP GKE)	`1.34`（Stable チャネル）

コンポーネント	値
GPU アーキテクチャ	Ampere 以降（A10G、A100、L40S、H100、H200）
GPU メモリ	デバイスあたり最低 24 GB
ワーカーコンテナ OS	Ubuntu 22.04 LTS
CUDA	`12.9` — ワーカーイメージにバンドル済み、ホストへのインストールは不要

プラットフォーム	MIG サポート
GKE	ノードプールの `gpu_partition_size` でサポート
EKS	Terraform 上では未設定 — 必要に応じて GPU Operator で手動セットアップ
Docker Compose / Swarm	`--mig` フラグと `nvidia-smi -L` の UUID でサポート（Docker を参照）

ハードウェアを選定する際は、レイテンシー（TTFA）とスループットのトレードオフを考慮する必要があります。各種 GPU でのテストメトリクスは下表を参照してください:

以下のベンチマークは Sonic 3.5 のもので、リリースタグ sonic-20260503 以降が必要です。2026 年 4 月更新。

同時実行数	TTFA P50 (ms)	TTFA P95 (ms)	RTF P50	RTF P95	スループット (chars/s)
1	50	55	0.10	0.10	105
2	50	55	0.10	0.10	200
4	80	115	0.15	0.15	325
8	120	165	0.20	0.20	550
12	125	225	0.20	0.25	760
16	195	300	0.30	0.30	795

同時実行数	TTFA P50 (ms)	TTFA P95 (ms)	RTF P50	RTF P95	スループット (chars/s)
1	60	65	0.10	0.15	125
2	65	100	0.15	0.15	230
4	110	150	0.15	0.20	385
8	165	230	0.25	0.25	575
12	215	290	0.30	0.35	730
16	290	340	0.35	0.40	780

同時実行数	TTFA P50 (ms)	TTFA P95 (ms)	RTF P50	RTF P95	スループット (chars/s)
1	45	50	0.10	0.10	100
2	50	55	0.15	0.15	180
4	75	105	0.15	0.15	330
8	125	165	0.20	0.25	485

同時実行数	TTFA P50 (ms)	TTFA P95 (ms)	RTF P50	RTF P95	スループット (chars/s)
1	60	65	0.15	0.15	85
2	70	85	0.15	0.15	150
4	100	135	0.20	0.20	285
8	145	260	0.25	0.30	410

同時実行数	TTFA P50 (ms)	TTFA P95 (ms)	RTF P50	RTF P95	スループット (chars/s)
1	80	85	0.15	0.20	75
2	90	155	0.20	0.20	130
4	165	240	0.25	0.30	210
8	270	355	0.40	0.45	305

これらをもとにワーカーごとの設定を行います。アプリケーションのスケーリング要件に対応するには、オートスケーリングの挙動を設定する必要があります。詳細はオートスケーリングを参照してください。