変更履歴 2025 - Cartesia Docs

December 2025

API

sonic-3-latest(プレビュー)および日付付き sonic-3-YYYY-MM-DD スナップショット。
選択時にバナーが表示される sonic-3-latest をプレイグラウンドTTSに追加。変更履歴 2026 を参照。

ボイスの変更

ボイスライブラリ — 12月: 6言語にわたる25の新規ボイス(英語12、ヒンディー語6、アラビア語4、スペイン語1、日本語1); うち14がフィーチャー扱い。
ボイスライブラリの変更; ボイスページのフィーチャードボイスバッジ; /voices/recent エンドポイント。

プレイグラウンド

レポート生成(レポートボタン、ユーザーがレポートしたときのアラート)。
ボイスの移動; ボイスの アーカイブと公開。
PVC: カスタムPVCボイスUI、UIに複数のユーザーエラーを表示、作成時のカスタムモデル用フィーチャーフラグ。
発音辞書: 新しいバックエンドAPI、作成/編集時のジェネレーター、大文字小文字の区別バッジ。
エージェント: 新しいテキストツーエージェントUI、Githubリポジトリのtarball からエージェント作成、UIエージェント用のシステムプロンプトジェネレーター。
ナレーション廃止 の通知; TTS履歴ページネーション; アクセストークン用認証戦略。
sonic-3-latest バナーと命名。

その他

PVC、STT、エージェントの改善。
エラー処理とエラーコード。

November 2025

API

エラー処理と公開エラーレスポンスの改善; ボイスIDによるキャッシュ無効化。
IPVCトレーニングAPI(markAsReady 削除); データセットファイルのoverfetch修正; デフォルトボイスロジック修正。

プレイグラウンド

発音辞書を新しいバックエンドAPIに移行; ビジュアルテーマをDBに永続化; PVCパイプラインのエラーとレコメンデーション。
通話ログの会話ビューをデフォルトに; TTSテキストエリアの高さ修正; パートナー向けにSonic-3モデル表示。
請求超過の「ブラッドバー」とアラートの修正; StartupプランのPVCゲート。
作成/編集時の発音辞書ジェネレーター; ダイアログ内のAPIバージョン; フィーチャードボイストグル; ナレーションモデル選択。

Line / エージェント

ユーザー音声なしの警告(250ms); Pipecat DeepgramNovaVADFilter。
通話録音とアーティファクトストレージの修正。

モデル / ボイス

Sonic 3 PVCとノーマライザーのアップデート; LoRAとPVCのエラー処理; データセットファイル数のexpandオプション。
preview_file_url; GET /voices の tags_operator; 非公開ボイス以外への削除制限; ファインチューンボイスの owner_id チェック; PVC用 user_errors。
新しいアラビア語アクセント; アフリカフランス語とカナダフランス語。

October 2025

モデルの変更

Sonic 3 ローンチ (10月27日) — sonic-3-2025-10-27 安定版スナップショットをリリース; 42言語; 音量、速度、感情のコントロール。
感情と笑いを伴うリアルタイム会話; ~190msの中央値レイテンシ。Sonic 3 および音量、速度、感情を参照。

その他

PVC、STT、エージェントの継続的改善; エラー処理と公開エラー; manifoneボイス; Sonic 3 PVCとノーマライザーの更新。
トランスクリプトバッファのマルチリンガルとタイ語発音辞書の修正; TTFAバッファリングとレポート; Voice Conversionオペレーターのリロード; 音声norm演算子。

September 2025

API

APIで user_id から owner_id へ(モデルエイリアス / オーナーシップ)。
エラー処理とバージョン/制限チェックの改善。

Line / エージェント

250ms以上ユーザー音声がない場合の警告; 偽の on_speech_started 用にPipecat DeepgramNovaVADFilter。
通話録音とアーティファクトストレージの修正。

モデル / ボイス

STT: 必要に応じてSTTプロバイダーをDeepgramに移行; 非英語または言語検出エージェント向けDeepgram; ワード単位のユーザーテキストチャンク。
Sonic 3 / PVC: Sonic 3 PVC更新; ヒンディー語Sonic 3ノーマライザーのリバート; LoRAデータ処理とデータセットファイル数のexpandオプション; PVCエラーをwebhookへ。
Manifone新ボイス; アフリカフランス語とカナダフランス語アクセント; パートナーエージェントがTTSモデルを設定可能。

その他

LoRAバグ修正。

August 2025

API

本番向けエージェントWebSocket; ライブコール終了用 cancelエンドポイント。
エラー処理と公開エラーコードの改善; ボイスIDによるキャッシュ無効化。

プレイグラウンド

テレフォニー: 顧客管理電話番号の請求停止; Cartesia vs Twilio のパラメータ分離。
アウトバウンド番号管理カラム。

Line / エージェント

Deepgram Nova VAD(vad_stop_secs 経由で utterance_end_ms を設定可能)。

モデル / ボイス

<audio> タグ用の新エンドポイント; ボイスAPIの accent カラム; 継続に max_buffer_delay を適用; eu-north-1リージョン。
GET /voices tags_operator; preview_file_url; 非公開ボイス以外への削除制限; ファインチューンボイスのリスト時に owner_id チェック; APIからのPVC user_errors。
新しいアラビア語アクセントへの移行。

その他

クレジットプランの最大ロールオーバー乗数。

July 2025

API

deploy_error ステータス修正。

プレイグラウンド

LangChain が Cartesia Sonic TTSを使用したボイスエージェントをローンチ。
請求: 必要に応じてエンタープライズ向けのStripeカスタマー; 通話ログサイドパネルでの通話ランタイムログ; 通話ログUIの細かい改善(6月の作業から)。

Line / エージェント

User Agentとのパートナーパイプラインパリティ; 並行性の修正(負の並行性); 評価用エージェントメトリックLLMクレジット使用量; AgentEvaluations機能。
User Code Connector WSハンドラー修正; エージェントのエンドターン処理; サマリゼーションシステムプロンプト; APIの user_prompt; エージェントメトリック結果からトランスクリプト削除; WSタイムアウトのデッドロック修正。

その他

フラッシュと並行性の修正。

June 2025

API

UserCodeAgent デプロイメントURL; API経由でライブコールを強制終了する cancelエンドポイント; Agent EoUDメトリック; cartesiaエージェントの高速化; エージェントメトリックでユーザープロンプトを別途保存; agent_evaluations テーブル; アグリゲーター用非同期フラッシュ; User Code Connector WSと最後のbotターン処理; ピックアップ時のデプロイメントURL遅延。
並行性とWSタイムアウトの修正; goroutine処理の改善; エージェントワーカーの /chats タイムアウト引き上げ。

プレイグラウンド

データテーブルとサイドパネルを備えたエージェント向け 通話ログ ページ; Twilio web dialer、ビジュアライザー、いいね/わるいねフィードバックを備えた エージェントデモ; デプロイメント詳細ページとリスト; Twilio番号プロビジョニング(パート1 & 2); GitConnectorのコミット時再デプロイ; デプロイメントログ; デプロイメント用zipアップロード; 組織別フィーチャーフラグ; フィーチャーフラグの背後でエージェントをゲート; エージェント用デフォルトSTTとして Deepgram; 組織v2(フロントエンドとバックエンド); 組織用20Kクレジット; エンタープライズ無料トライアル日数とメール請求書オプション。
クレジット使用量: TTS & STT並行性パネルの分離; STTとInfillチャート; ボイスページのコピー可能フィールド; 通話ログパネルでの通話ランタイムログ。

モデル / ボイス

STT: Whisper large v3; STTパイプラインで複数モデルを提供; ワード単位のユーザーテキストチャンク。
FinetunedSTTContext修正。

May 2025

API

エンタープライズでのVoice Conversion。

Line / エージェント

DBからのユーザーコードデプロイメント; agent_deployments テーブル; STT cartesia-streaming と Pipecatストリーミング Whisper; OpenAI互換向けのBedrockプロキシ; タイムスタンプバグ修正と元のタイムスタンプにデフォルト設定。
パートナー /chat と /config の更新; UserCodeConnectorでのDTMFサポート; エンドポインティングアーキテクチャ。

モデル / ボイス

STT: バッチエンジンの使用率; Pipecatストリーミング Whisper。
Deepgram STTクライアント url/base_url 修正。

その他

ボイスクローンアップロード修正。

April 2025

破壊的変更

sonic-2-2025-04-16 — sonic-2-2025-04-16 以降、以下のサポートを削除します: Embeddings; stability クローニングモード; 速度と感情の実験的コントロール。similarity クローニングモードは劇的に改善されました。今日速度と感情を制御するには、Instant Voice Cloning(例: FFMPEG、Voice Changer、または sonic-2-2025-03-07 のembeddingsからのインスタントクローン)を使用してください。embeddingsまたは実験的コントロールが必要なユーザーは、モデル sonic-2-2025-03-07 とAPIバージョン 2024-11-13 を使用できます(どちらも引き続き利用可能)。古いモデルを参照。

API

単一ボイス用のID指定によるlistVoices; warm-monkey PVC; アクセストークン(JWT); Cartesia-Version 2024-11-13; phoneme/originalタイムスタンプ言語チェック; TTS履歴ソース; ファインチューンチェックポイントからのLoRA; コンテキストの有効期限を入力ストリーム遅延に置き換え。
sonic-2 と sonic-2-2025-04-16 はTTS生成時の実験的コントロールを無視; ボイスクローニングは similarity クローンのみサポート。
すべてのエンドポイントからembeddingsを削除; ボイスはボイスIDでのみ指定可能; /tts はボイスembeddingsで呼び出し不可。
/voices/create と /voices/mix を非推奨化。

March 2025

破壊的変更

sonic-2-2025-03-07 はvoice embeddingsと実験的コントロールをサポートする最後のSonic 2スナップショットです。レガシー動作にはAPIバージョン 2024-11-13 で使用してください。
sonic-preview → JollyTotem、RoseLion非推奨化; スピーカー切り替え用にsonic-2 を jolly-totem にエイリアス。古いモデルを参照。

API

Cartesia-Version を 2024-11-13 に更新; bytesエンドポイントのヘッダー経由のモデルレイテンシ; 新しい Sonic PVC モデル warm-monkey; IDによるlistVoices(単一ボイス); アクセストークン(JWT署名、検証); phoneme と original タイムスタンプをサポートする言語のAPIレベルチェック。
組織と請求; 無料クレジット 10k → 20k; 超過分プロダクト; サブスクリプションキャッシュ無効化webhook; TTS履歴の source カラム(api、playground、narrations); ベースVoiceVariationとファインチューン用チェックポイントからのLoRAボイス。

プレイグラウンド

sonic-2 と sonic-turbo エイリアスのローンチ; Sonic 2 / Sonic Turboのメッセージング(Turbo = 40msレイテンシ)。
cartesia.ai/sonic とプレイグラウンドの更新。

Line / エージェント

WebSocket URLのエージェントID; パートナーコールのテレフォニー情報; Pipecatバージョンアップグレード; パートナーデモのツールコール; warm-monkey PVCモデル; prespeak と function call フローの更新。
Twilio ボイスルートがエージェントIDをサポート; エージェントのキーパッドDTMF; 半二重STTとLLMコンテキスト; APIでoriginalタイムスタンプサポート。

その他

sonic-pvc エイリアスと sonic-pvc モデルとしてのDryVoice。Python SDK を発表。

February 2025

API

IDによる listVoices; localizeエンドポイントのボイス名修正; 不正なボディパラメータに対する400; テキストフォースの最大トランスクリプト長; OpenAI互換STTサーバー; ローカルSTTを使用するエージェント; ボイスタグ; 評価のオンデバイストランスクリプト; デフォルトのsonic-previewとしてjolly-totem。
S2S と Agents の基礎ブロック。

プレイグラウンド

無料ユーザー向けにインスタントクローニングを有効化; ボイスタグ; conditioningを使用するようlocalizeをリファクタリング; listVoicesで単一ボイスをIDクエリ可能; Sarah(Similarity)とSouthern Womanの移行; オンデバイストランスクリプト。
ナレーション設定(JSONB)。

Line / エージェント

ローカルSTTを使用するエージェント; 基礎的なS2S + Agentsブロック; 設計とパイプラインの作業。

モデル / ボイス

STT: cartesia-streaming と Pipecatストリーミング Whisper; オンデバイストランスクリプト。

January 2025

API

sonic-lite をAPIに追加; 本番APIのEUデプロイメント; TTS bytesハンドラーの保存オプション; Cartesia-File-ID のCORSヘッダー; チェックアウトでStripeクレジットがデフォルトで char_limit に; 超過分設定用のRedisキャッシュ; EUでのpolar-mountainとVC; ListFilesページネーター修正。
評価のbreak/spellタグと置換/正規化モード。

モデル / ボイス

sonic-preview を MisunderstoodFrog にルーティング; polar-mountainを追加してステージング; どの言語でも対応する visionary-yogurt タイムスタンプリクエスト。
デフォルトのsonic-previewとしてjolly-totem。

変更履歴 2026

変更履歴 2024

⌘I