メインコンテンツへスキップ
December 2024

API

  • 料金の更新; 文字使用量カラムをbigintに移行; Pro Voice Clone用のpresign URL; voices/<id>/conditioning エンドポイント; presignでfile to dataset; userIDレベルのエンドポイント制限; チェックアウト時のStripe Customer ID。
  • EUデプロイメントとヒンディー語HCの修正。

プレイグラウンド

  • トランスクリプトフォロー の改善をハイライトするプレイグラウンドの新モデル(デモ、GAではない)。
  • ブログと play.cartesia.ai が公開。

モデル / ボイス

  • sonicsonic-preview のモデルエイリアスを更新; APIとエンタープライズでtwilight-morning; ボイスクローンとマルチリンガル用のconditioningエントリー。
  • LoRAボイス選択のためのEmbedding検索。

その他

  • インフラストラクチャとスケーリングの更新。
  • State of Voice ブログとマップ。
November 2024

API

  • Cartesia-Version 2024-11-13 — 新しいAPIバージョンへのアップグレード; 統合クローンボイスエンドポイント; データセットサポート; filesエンドポイントのページネーション; FineTuneRequestステータス; プレイグラウンドのfine-tunes API; Pro Voice Clone用のpresign URL; 手動WebSocketフラッシュのための Flush Done イベント; 継続用の <pause> タグ。
  • GCPエンタープライズ。

プレイグラウンド

  • 新しいAPIへの変更; replayスイート; GCPエンタープライズ。

モデル / ボイス

  • WebSocketでの手動フラッシュ用 Flush Done イベント; 単一トランスクリプト内での継続用 <pause> タグ; スペル修正; 手動フラッシュとフラッシュID。
  • mp3用の空のencodingフィールドを許可。

ドキュメント

  • APIバージョン 2024-11-13: Sonic 2、機能ガイド(クローン、発音、速度/感情、継続、ローカライズ)、Sonic 2向けフォーマット。
  • インテグレーション: LiveKit、Pipecat、Rasa、Thoughtly、Twilio、MCP。エンタープライズ: SSO、組織。API規約 を参照。
October 2024

API

  • Cartesia JS bytesエンドポイント; gen blocksを文字カウントから削除; ヘルスチェックとミドルウェア; キュー長キャップとタイムアウト付き ユーザーレベルキューイング; 10倍のキューサイズ拒否; Slang(継続)と ConditioningData; voice changer JS SDK。
  • プレイグラウンドからmax limitを削除。

プレイグラウンド

  • GCP: GCP US Central用のAPIとIngress。キューイング: APIゲートウェイでのユーザーレベルキューイング; キュー長キャップと queuedRequest タイムアウト。
  • Voice Changer: プレイグラウンドUIの調整; ResolvedVoiceの一部としての ConditioningData; Slangロールアウト; spellタグの開始/終了時のフラッシュ。
  • LoRAリリースUI; オンボーディングデータupsert修正; welcomeページのsubmitローディングステート; エンタープライズ連絡リンク。

その他

  • カノニカルリンクとサイトマップ。
  • ブログとナビゲーション(ブログ、キャリア)の更新。
September 2024

API

  • ユーザーレベルキューイング; キューサイズとWebSocketキューイング拒否; ボイスAPIユーザビリティのための api_status フィールド; LoRAの料金とUXクリーンアップ; DONEトークンでの全音声フラッシュ(CB含む); ログ内のトランスクリプトを難読化するユーザーオプション。
  • LoRAとロードバランサーの改善。

プレイグラウンド

  • 関数呼び出し; エージェント作成、テスト、開発セットアップ; ボイスエージェントインフラストラクチャ有効化。
  • LoRA: HiFiクローニングエンドポイントとプレイグラウンドページ; プレイグラウンドの8つの新ボイス; インドアクセント。
  • Voice Changer プレイグラウンドUI; voice changer用JS SDK。voices/[id] からのTTSリクエストに言語を追加; DONEトークンで全音声フラッシュ; ログ内のトランスクリプトを難読化するユーザーオプション。

ドキュメント

  • ブログとサイトマップの更新。
August 2024

API

  • 無効なトランスクリプトの拒否(ドキュメントとAPIゲートウェイ); WebSocketsの no_more_inputsvoice_id の代わりに voice_embedding を使用可能。
  • 不正なモデルIDの処理を改善。

プレイグラウンド

  • プレイグラウンドとJSクライアントの ローカライゼーション ページ; 方言と将来互換性。プレイグラウンドをボイスIDに切り替え; TTSRequestid とembeddingの両方を許可; ボイスのアーカイブ(APIではアクセス可能のまま維持)。
  • Replayボタン; フィードバックフォーム; 英語に戻したときのマルチリンガル推奨ボイスの修正; より良いエラーメッセージ。

モデル / ボイス

  • LoRA サポート(LoRAごとに複数ボイス、新しいキャッシュキー、easy-brook-lora、vc-flowing-dream)。

その他

  • オンデバイスホームページのローンチ; 「Request a demo」ボタンの正しいリンク。
  • LoRA: LoRAごとに複数ボイス。
July 2024

API

  • Voice Conversion エンドポイント — 新しいAPIエンドポイント。WebSocketエンドポイントの タイムスタンプ; APIでの 生成ごとのボイスコントロール(速度、感情); polar-treeデプロイ(sonic-multilingual); 連続バッチングサポート; VocalWave(英語)と長文生成サポート; sonic-english → vocal-wave、sonic-multilingual → ancient-voice エイリアス。
  • /bytesbuffermp3 パラメータ; MP3ストリーミングとWAVエンコーディングの修正; リクエストキャンセル; continue=false のとき空のトランスクリプトを許可; Stripe webhookキャッシュクリア; サブスクリプションのキャンセル/再アクティベーション; 超過分のRedisキャッシュ; keysエンドポイント。
  • APIでClerkベース認証。

プレイグラウンド

  • JSクライアント、Pythonクライアント、プレイグラウンドでのボイスクローニング向けオプション enhance フラグ; ボイス更新エンドポイントとドキュメント; 無料ユーザー向けボイスクローニングのゲート。
  • 再生中の音声再生を防止; 生成完了までダウンロードボタンを無効化; APIキー削除をコピーボタンで明確に; 文字使用量インジケーター; サブスクリプションとチェックアウトの修正; 無料ユーザー向けクローンフォームのゲート。

ドキュメント

  • ボイスクローニングのドキュメント; タイムスタンプと継続; ボイスコントロールとTwilio用のユーザーガイド; 感情制御とタイムスタンプ; 「phonemes」という用語。
  • ファイルからのボイスクローニング。

その他

  • Pythonクライアント: 継続サポート、カスタム base_url、WebSocketのフォールバック; JSクライアント v1.0.1: useTTSの onError プロパティ。
  • Pythonクライアントとドキュメントでのボイスコントロール(速度、感情)。
June 2024

API

  • Continuations — SSEとBytesを介したストリーミング入力のサポート; NoMoreInputs シグナル。Cartesia Version ヘッダー経由で強制; プレイグラウンドとチェックアウト/サブスクリプションエンドポイントが送信。
  • 有効なサンプルレートに48 kHzを追加; .wav バイトストリーミング; 生バイト用のHTTPストリーミングエンドポイント; API標準化(後方互換性); 新しいvoicesエンドポイント; mulawとalawの後方互換性; Pythonクライアント v1.0.0(全面刷新、output_format); JSクライアント: pcm_s16lepcm_alawpcm_mulaw と型の改善; ボイスのキャッシング; WebSocketレスポンスとドキュメントの context_id
  • 更新と期限切れのStripe webhooks; OpenAPI仕様の更新。

プレイグラウンド

  • マルチリンガル: voices APIとAPIで language パラメータ; プレイグラウンドの言語選択; ホームページのマルチリンガルコピー; デフォルト sonic-english → feasible-haze。
  • モバイルレイアウトの改善; マルチリンガルUIの細かい修正; ボイスクローニングと空のトランスクリプトのスタイル修正; フィルタリングを voices/[id] からSpeakページに移動。

モデル / ボイス

  • sonic-multilingualsonic-english のエイリアス; ボイスの language カラム。
  • 推奨ボイス。

ドキュメント

  • バージョン 2024-06-10: getting started、API規約、インテグレーション(LiveKit、Pipecat、Rasa、Thoughtly、Twilio、MCP)、ボイスクローン、embeddings/ボイスミキシング。API規約 を参照。

その他

  • ToS変更; 料金階層の改訂; サインインとサインアップの法的通知; プレイグラウンドの超過分トグル。
  • 文字使用量制限を超えた場合のWebSocketブロック。
May 2024

API

  • Cartesia Version ヘッダー; 生バイト用のHTTPストリーミング; 新しいvoicesエンドポイント; mulaw/alawの後方互換性; API標準化(後方互換性); Pythonクライアント v1.0.0; JSクライアント構造の全面刷新。
  • クローンボイスアップロードの修正。

プレイグラウンド

  • リデザインとSonicローンチコピー; サブスクリプションページ; ボイスのお気に入り化; 感情と速度のスライダー; UserボイスとDefaultボイス; DBとプレイグラウンドの タグ(年齢、アクセント); sample_text フィールド(APIゲートウェイとプレイグラウンド); 再生前のストリーミング音声バッファ; 文字使用量インジケーター; ユーザー作成時のAPIキー自動作成; カスタムサインイン/サインアップとサインアウト時の404修正; 音声再生中の生成ボタン無効化; 人間が読めるモデル名とskilled-cherry。
  • 文字制限の引き上げ。

モデル / ボイス

  • 人間が読めるモデル名; skilled-cherry; polar-tree (sonic-multilingual); 継続と出力フォーマット; Pythonクライアントのnumpy配列サポート。
  • ボイスクローニングの免責事項。

ドキュメント

  • Mintlifyドキュメントを追加。

その他

  • サブスクリプション用Stripe webhooks; サブスクリプションのキャンセルと再アクティベーション; 生成ルートでの文字使用量チェック; デフォルトで無料サブスクリプション; Scaleプランの制限(月800万文字); チェックアウトと領収書。
  • カスタムサインイン/サインアップページ。
April 2024

API

  • generateへのパラメータとして model_id を追加; 最小トランスクリプト長を強制; voiceAudioGenerationRequest に移動; 実験的ルーターを削除; 速度コントロールとボイス編集ページ; 動画生成エンドポイント。
  • WhisperXを依存関係から削除。
March 2024

API

  • WebSocket割り込みサポート; voice embedding取得ルート; APIキーのRedisキャッシュ; ストリーミングをOctetからJSONに切り替え; 新モデル genial-planet-1346; リクエストで voice パラメータを必須化; フォーマットサポート。
  • 文字起こし用のWhisperX(後に削除)。

プレイグラウンド

  • UIでのボイスクローニング; JSクライアントの接続情報; ダウンロード可能な音声; トランスクリプト長検証(最大400文字、空は拒否); APIキー欠如時のUX改善とクラッシュ処理; ウェルカムメッセージとアイコン。
  • Clerk webhooks経由のサインアップ時のAPIキー作成。

その他

  • JSクライアントのボイスクローニングと接続情報。