December 2025
API
- sonic-3-latest(プレビュー)および日付付き sonic-3-YYYY-MM-DD スナップショット。
- 選択時にバナーが表示される sonic-3-latest をプレイグラウンドTTSに追加。変更履歴 2026 を参照。
ボイスの変更
- ボイスライブラリ — 12月: 6言語にわたる25の新規ボイス(英語12、ヒンディー語6、アラビア語4、スペイン語1、日本語1); うち14がフィーチャー扱い。
- ボイスライブラリの変更; ボイスページのフィーチャードボイスバッジ;
/voices/recentエンドポイント。
プレイグラウンド
- レポート生成(レポートボタン、ユーザーがレポートしたときのアラート)。
- ボイスの 移動; ボイスの アーカイブと公開。
- PVC: カスタムPVCボイスUI、UIに複数のユーザーエラーを表示、作成時のカスタムモデル用フィーチャーフラグ。
- 発音辞書: 新しいバックエンドAPI、作成/編集時のジェネレーター、大文字小文字の区別バッジ。
- エージェント: 新しいテキストツーエージェントUI、Githubリポジトリのtarball からエージェント作成、UIエージェント用のシステムプロンプトジェネレーター。
- ナレーション廃止 の通知; TTS履歴ページネーション; アクセストークン用認証戦略。
- sonic-3-latest バナーと命名。
その他
- PVC、STT、エージェントの改善。
- エラー処理とエラーコード。
November 2025
API
- エラー処理と公開エラーレスポンスの改善; ボイスIDによるキャッシュ無効化。
- IPVCトレーニングAPI(
markAsReady削除); データセットファイルのoverfetch修正; デフォルトボイスロジック修正。
プレイグラウンド
- 発音辞書を新しいバックエンドAPIに移行; ビジュアルテーマをDBに永続化; PVCパイプラインのエラーとレコメンデーション。
- 通話ログの会話ビューをデフォルトに; TTSテキストエリアの高さ修正; パートナー向けにSonic-3モデル表示。
- 請求超過の「ブラッドバー」とアラートの修正; StartupプランのPVCゲート。
- 作成/編集時の発音辞書ジェネレーター; ダイアログ内のAPIバージョン; フィーチャードボイストグル; ナレーションモデル選択。
Line / エージェント
- ユーザー音声なしの警告(250ms); Pipecat DeepgramNovaVADFilter。
- 通話録音とアーティファクトストレージの修正。
モデル / ボイス
- Sonic 3 PVCとノーマライザーのアップデート; LoRAとPVCのエラー処理; データセットファイル数のexpandオプション。
preview_file_url; GET /voices のtags_operator; 非公開ボイス以外への削除制限; ファインチューンボイスのowner_idチェック; PVC用user_errors。- 新しいアラビア語アクセント; アフリカフランス語とカナダフランス語。
October 2025
モデルの変更
- Sonic 3 ローンチ (10月27日) — sonic-3-2025-10-27 安定版スナップショットをリリース; 42言語; 音量、速度、感情のコントロール。
- 感情と笑いを伴うリアルタイム会話; ~190msの中央値レイテンシ。Sonic 3 および 音量、速度、感情 を参照。
その他
- PVC、STT、エージェントの継続的改善; エラー処理と公開エラー; manifoneボイス; Sonic 3 PVCとノーマライザーの更新。
- トランスクリプトバッファのマルチリンガルとタイ語発音辞書の修正; TTFAバッファリングとレポート; Voice Conversionオペレーターのリロード; 音声norm演算子。
September 2025
API
- APIで
user_idからowner_idへ(モデルエイリアス / オーナーシップ)。 - エラー処理とバージョン/制限チェックの改善。
Line / エージェント
- 250ms以上ユーザー音声がない場合の警告; 偽の
on_speech_started用にPipecat DeepgramNovaVADFilter。 - 通話録音とアーティファクトストレージの修正。
モデル / ボイス
- STT: 必要に応じてSTTプロバイダーをDeepgramに移行; 非英語または言語検出エージェント向けDeepgram; ワード単位のユーザーテキストチャンク。
- Sonic 3 / PVC: Sonic 3 PVC更新; ヒンディー語Sonic 3ノーマライザーのリバート; LoRAデータ処理とデータセットファイル数のexpandオプション; PVCエラーをwebhookへ。
- Manifone新ボイス; アフリカフランス語とカナダフランス語アクセント; パートナーエージェントがTTSモデルを設定可能。
その他
- LoRAバグ修正。
August 2025
API
- 本番向けエージェントWebSocket; ライブコール終了用 cancelエンドポイント。
- エラー処理と公開エラーコードの改善; ボイスIDによるキャッシュ無効化。
プレイグラウンド
- テレフォニー: 顧客管理電話番号の請求停止; Cartesia vs Twilio のパラメータ分離。
- アウトバウンド番号管理カラム。
Line / エージェント
- Deepgram Nova VAD(
vad_stop_secs経由でutterance_end_msを設定可能)。
モデル / ボイス
<audio>タグ用の新エンドポイント; ボイスAPIの accent カラム; 継続にmax_buffer_delayを適用; eu-north-1リージョン。- GET /voices
tags_operator;preview_file_url; 非公開ボイス以外への削除制限; ファインチューンボイスのリスト時にowner_idチェック; APIからのPVCuser_errors。 - 新しいアラビア語アクセントへの移行。
その他
- クレジットプランの最大ロールオーバー乗数。
July 2025
API
deploy_errorステータス修正。
プレイグラウンド
- LangChain が Cartesia Sonic TTSを使用したボイスエージェントをローンチ。
- 請求: 必要に応じてエンタープライズ向けのStripeカスタマー; 通話ログサイドパネルでの通話ランタイムログ; 通話ログUIの細かい改善(6月の作業から)。
Line / エージェント
- User Agentとのパートナーパイプラインパリティ; 並行性の修正(負の並行性); 評価用エージェントメトリックLLMクレジット使用量; AgentEvaluations機能。
- User Code Connector WSハンドラー修正; エージェントのエンドターン処理; サマリゼーションシステムプロンプト; APIの
user_prompt; エージェントメトリック結果からトランスクリプト削除; WSタイムアウトのデッドロック修正。
その他
- フラッシュと並行性の修正。
June 2025
API
- UserCodeAgent デプロイメントURL; API経由でライブコールを強制終了する cancelエンドポイント; Agent EoUDメトリック; cartesiaエージェントの高速化; エージェントメトリックでユーザープロンプトを別途保存;
agent_evaluationsテーブル; アグリゲーター用非同期フラッシュ; User Code Connector WSと最後のbotターン処理; ピックアップ時のデプロイメントURL遅延。 - 並行性とWSタイムアウトの修正; goroutine処理の改善; エージェントワーカーの
/chatsタイムアウト引き上げ。
プレイグラウンド
- データテーブルとサイドパネルを備えたエージェント向け 通話ログ ページ; Twilio web dialer、ビジュアライザー、いいね/わるいねフィードバックを備えた エージェントデモ; デプロイメント詳細ページとリスト; Twilio番号プロビジョニング(パート1 & 2); GitConnectorのコミット時再デプロイ; デプロイメントログ; デプロイメント用zipアップロード; 組織別フィーチャーフラグ; フィーチャーフラグの背後でエージェントをゲート; エージェント用デフォルトSTTとして Deepgram; 組織v2(フロントエンドとバックエンド); 組織用20Kクレジット; エンタープライズ無料トライアル日数とメール請求書オプション。
- クレジット使用量: TTS & STT並行性パネルの分離; STTとInfillチャート; ボイスページのコピー可能フィールド; 通話ログパネルでの通話ランタイムログ。
モデル / ボイス
- STT: Whisper large v3; STTパイプラインで複数モデルを提供; ワード単位のユーザーテキストチャンク。
- FinetunedSTTContext修正。
May 2025
API
- エンタープライズでのVoice Conversion。
Line / エージェント
- DBからのユーザーコードデプロイメント;
agent_deploymentsテーブル; STT cartesia-streaming と Pipecatストリーミング Whisper; OpenAI互換向けのBedrockプロキシ; タイムスタンプバグ修正と元のタイムスタンプにデフォルト設定。 - パートナー
/chatと/configの更新; UserCodeConnectorでのDTMFサポート; エンドポインティングアーキテクチャ。
モデル / ボイス
- STT: バッチエンジンの使用率; Pipecatストリーミング Whisper。
- Deepgram STTクライアント
url/base_url修正。
その他
- ボイスクローンアップロード修正。
April 2025
破壊的変更
- sonic-2-2025-04-16 —
sonic-2-2025-04-16以降、以下のサポートを削除します: Embeddings;stabilityクローニングモード; 速度と感情の実験的コントロール。similarityクローニングモードは劇的に改善されました。今日速度と感情を制御するには、Instant Voice Cloning(例: FFMPEG、Voice Changer、またはsonic-2-2025-03-07のembeddingsからのインスタントクローン)を使用してください。embeddingsまたは実験的コントロールが必要なユーザーは、モデルsonic-2-2025-03-07とAPIバージョン2024-11-13を使用できます(どちらも引き続き利用可能)。古いモデル を参照。
API
- 単一ボイス用のID指定によるlistVoices; warm-monkey PVC; アクセストークン(JWT); Cartesia-Version 2024-11-13; phoneme/originalタイムスタンプ言語チェック; TTS履歴ソース; ファインチューンチェックポイントからのLoRA; コンテキストの有効期限を入力ストリーム遅延に置き換え。
sonic-2とsonic-2-2025-04-16はTTS生成時の実験的コントロールを無視; ボイスクローニングはsimilarityクローンのみサポート。- すべてのエンドポイントからembeddingsを削除; ボイスはボイスIDでのみ指定可能;
/ttsはボイスembeddingsで呼び出し不可。 /voices/createと/voices/mixを非推奨化。
March 2025
破壊的変更
- sonic-2-2025-03-07 はvoice embeddingsと実験的コントロールをサポートする最後のSonic 2スナップショットです。レガシー動作にはAPIバージョン
2024-11-13で使用してください。 - sonic-preview → JollyTotem、RoseLion非推奨化; スピーカー切り替え用にsonic-2 を jolly-totem にエイリアス。古いモデル を参照。
API
- Cartesia-Version を 2024-11-13 に更新; bytesエンドポイントのヘッダー経由のモデルレイテンシ; 新しい Sonic PVC モデル warm-monkey; IDによるlistVoices(単一ボイス); アクセストークン(JWT署名、検証); phoneme と original タイムスタンプをサポートする言語のAPIレベルチェック。
- 組織と請求; 無料クレジット 10k → 20k; 超過分プロダクト; サブスクリプションキャッシュ無効化webhook; TTS履歴の source カラム(api、playground、narrations); ベースVoiceVariationとファインチューン用チェックポイントからのLoRAボイス。
プレイグラウンド
- sonic-2 と sonic-turbo エイリアスのローンチ; Sonic 2 / Sonic Turboのメッセージング(Turbo = 40msレイテンシ)。
- cartesia.ai/sonic とプレイグラウンドの更新。
Line / エージェント
- WebSocket URLのエージェントID; パートナーコールのテレフォニー情報; Pipecatバージョンアップグレード; パートナーデモのツールコール; warm-monkey PVCモデル; prespeak と function call フローの更新。
- Twilio ボイスルートがエージェントIDをサポート; エージェントのキーパッドDTMF; 半二重STTとLLMコンテキスト; APIでoriginalタイムスタンプサポート。
その他
- sonic-pvc エイリアスと sonic-pvc モデルとしてのDryVoice。Python SDK を発表。
February 2025
API
- IDによる listVoices; localizeエンドポイントのボイス名修正; 不正なボディパラメータに対する400; テキストフォースの最大トランスクリプト長; OpenAI互換STTサーバー; ローカルSTTを使用するエージェント; ボイスタグ; 評価のオンデバイストランスクリプト; デフォルトのsonic-previewとしてjolly-totem。
- S2S と Agents の基礎ブロック。
プレイグラウンド
- 無料ユーザー向けにインスタントクローニングを有効化; ボイスタグ; conditioningを使用するようlocalizeをリファクタリング; listVoicesで単一ボイスをIDクエリ可能; Sarah(Similarity)とSouthern Womanの移行; オンデバイストランスクリプト。
- ナレーション設定(JSONB)。
Line / エージェント
- ローカルSTTを使用するエージェント; 基礎的なS2S + Agentsブロック; 設計とパイプラインの作業。
モデル / ボイス
- STT: cartesia-streaming と Pipecatストリーミング Whisper; オンデバイストランスクリプト。
January 2025
API
- sonic-lite をAPIに追加; 本番APIのEUデプロイメント; TTS bytesハンドラーの保存オプション; Cartesia-File-ID のCORSヘッダー; チェックアウトでStripeクレジットがデフォルトで
char_limitに; 超過分設定用のRedisキャッシュ; EUでのpolar-mountainとVC; ListFilesページネーター修正。 - 評価のbreak/spellタグと置換/正規化モード。
モデル / ボイス
- sonic-preview を MisunderstoodFrog にルーティング; polar-mountainを追加してステージング; どの言語でも対応する visionary-yogurt タイムスタンプリクエスト。
- デフォルトのsonic-previewとしてjolly-totem。