December 2024
API
- 料金の更新; 文字使用量カラムをbigintに移行; Pro Voice Clone用のpresign URL;
voices/<id>/conditioningエンドポイント; presignでfile to dataset; userIDレベルのエンドポイント制限; チェックアウト時のStripe Customer ID。 - EUデプロイメントとヒンディー語HCの修正。
プレイグラウンド
- トランスクリプトフォロー の改善をハイライトするプレイグラウンドの新モデル(デモ、GAではない)。
- ブログと play.cartesia.ai が公開。
モデル / ボイス
sonicとsonic-previewのモデルエイリアスを更新; APIとエンタープライズでtwilight-morning; ボイスクローンとマルチリンガル用のconditioningエントリー。- LoRAボイス選択のためのEmbedding検索。
その他
- インフラストラクチャとスケーリングの更新。
- State of Voice ブログとマップ。
November 2024
API
- Cartesia-Version 2024-11-13 — 新しいAPIバージョンへのアップグレード; 統合クローンボイスエンドポイント; データセットサポート; filesエンドポイントのページネーション; FineTuneRequestステータス; プレイグラウンドのfine-tunes API; Pro Voice Clone用のpresign URL; 手動WebSocketフラッシュのための Flush Done イベント; 継続用の
<pause>タグ。 - GCPエンタープライズ。
プレイグラウンド
- 新しいAPIへの変更; replayスイート; GCPエンタープライズ。
モデル / ボイス
- WebSocketでの手動フラッシュ用 Flush Done イベント; 単一トランスクリプト内での継続用
<pause>タグ; スペル修正; 手動フラッシュとフラッシュID。 - mp3用の空のencodingフィールドを許可。
ドキュメント
- APIバージョン 2024-11-13: Sonic 2、機能ガイド(クローン、発音、速度/感情、継続、ローカライズ)、Sonic 2向けフォーマット。
- インテグレーション: LiveKit、Pipecat、Rasa、Thoughtly、Twilio、MCP。エンタープライズ: SSO、組織。API規約 を参照。
October 2024
API
- Cartesia JS bytesエンドポイント; gen blocksを文字カウントから削除; ヘルスチェックとミドルウェア; キュー長キャップとタイムアウト付き ユーザーレベルキューイング; 10倍のキューサイズ拒否; Slang(継続)と ConditioningData; voice changer JS SDK。
- プレイグラウンドからmax limitを削除。
プレイグラウンド
- GCP: GCP US Central用のAPIとIngress。キューイング: APIゲートウェイでのユーザーレベルキューイング; キュー長キャップと
queuedRequestタイムアウト。 - Voice Changer: プレイグラウンドUIの調整; ResolvedVoiceの一部としての ConditioningData; Slangロールアウト; spellタグの開始/終了時のフラッシュ。
- LoRAリリースUI; オンボーディングデータupsert修正; welcomeページのsubmitローディングステート; エンタープライズ連絡リンク。
その他
- カノニカルリンクとサイトマップ。
- ブログとナビゲーション(ブログ、キャリア)の更新。
September 2024
API
- ユーザーレベルキューイング; キューサイズとWebSocketキューイング拒否; ボイスAPIユーザビリティのための
api_statusフィールド; LoRAの料金とUXクリーンアップ; DONEトークンでの全音声フラッシュ(CB含む); ログ内のトランスクリプトを難読化するユーザーオプション。 - LoRAとロードバランサーの改善。
プレイグラウンド
- 関数呼び出し; エージェント作成、テスト、開発セットアップ; ボイスエージェントインフラストラクチャ有効化。
- LoRA: HiFiクローニングエンドポイントとプレイグラウンドページ; プレイグラウンドの8つの新ボイス; インドアクセント。
- Voice Changer プレイグラウンドUI; voice changer用JS SDK。
voices/[id]からのTTSリクエストに言語を追加; DONEトークンで全音声フラッシュ; ログ内のトランスクリプトを難読化するユーザーオプション。
ドキュメント
- ブログとサイトマップの更新。
August 2024
API
- 無効なトランスクリプトの拒否(ドキュメントとAPIゲートウェイ); WebSocketsの
no_more_inputsでvoice_idの代わりにvoice_embeddingを使用可能。 - 不正なモデルIDの処理を改善。
プレイグラウンド
- プレイグラウンドとJSクライアントの ローカライゼーション ページ; 方言と将来互換性。プレイグラウンドをボイスIDに切り替え;
TTSRequestでidとembeddingの両方を許可; ボイスのアーカイブ(APIではアクセス可能のまま維持)。 - Replayボタン; フィードバックフォーム; 英語に戻したときのマルチリンガル推奨ボイスの修正; より良いエラーメッセージ。
モデル / ボイス
- LoRA サポート(LoRAごとに複数ボイス、新しいキャッシュキー、easy-brook-lora、vc-flowing-dream)。
その他
- オンデバイスホームページのローンチ; 「Request a demo」ボタンの正しいリンク。
- LoRA: LoRAごとに複数ボイス。
July 2024
API
- Voice Conversion エンドポイント — 新しいAPIエンドポイント。WebSocketエンドポイントの タイムスタンプ; APIでの 生成ごとのボイスコントロール(速度、感情); polar-treeデプロイ(
sonic-multilingual); 連続バッチングサポート; VocalWave(英語)と長文生成サポート;sonic-english→ vocal-wave、sonic-multilingual→ ancient-voice エイリアス。 /bytesのbufferとmp3パラメータ; MP3ストリーミングとWAVエンコーディングの修正; リクエストキャンセル;continue=falseのとき空のトランスクリプトを許可; Stripe webhookキャッシュクリア; サブスクリプションのキャンセル/再アクティベーション; 超過分のRedisキャッシュ; keysエンドポイント。- APIでClerkベース認証。
プレイグラウンド
- JSクライアント、Pythonクライアント、プレイグラウンドでのボイスクローニング向けオプション
enhanceフラグ; ボイス更新エンドポイントとドキュメント; 無料ユーザー向けボイスクローニングのゲート。 - 再生中の音声再生を防止; 生成完了までダウンロードボタンを無効化; APIキー削除をコピーボタンで明確に; 文字使用量インジケーター; サブスクリプションとチェックアウトの修正; 無料ユーザー向けクローンフォームのゲート。
ドキュメント
- ボイスクローニングのドキュメント; タイムスタンプと継続; ボイスコントロールとTwilio用のユーザーガイド; 感情制御とタイムスタンプ; 「phonemes」という用語。
- ファイルからのボイスクローニング。
その他
- Pythonクライアント: 継続サポート、カスタム
base_url、WebSocketのフォールバック; JSクライアント v1.0.1: useTTSのonErrorプロパティ。 - Pythonクライアントとドキュメントでのボイスコントロール(速度、感情)。
June 2024
API
- Continuations — SSEとBytesを介したストリーミング入力のサポート;
NoMoreInputsシグナル。Cartesia Version ヘッダー経由で強制; プレイグラウンドとチェックアウト/サブスクリプションエンドポイントが送信。 - 有効なサンプルレートに48 kHzを追加;
.wavバイトストリーミング; 生バイト用のHTTPストリーミングエンドポイント; API標準化(後方互換性); 新しいvoicesエンドポイント; mulawとalawの後方互換性; Pythonクライアント v1.0.0(全面刷新、output_format); JSクライアント:pcm_s16le、pcm_alaw、pcm_mulawと型の改善; ボイスのキャッシング; WebSocketレスポンスとドキュメントのcontext_id。 - 更新と期限切れのStripe webhooks; OpenAPI仕様の更新。
プレイグラウンド
- マルチリンガル: voices APIとAPIで
languageパラメータ; プレイグラウンドの言語選択; ホームページのマルチリンガルコピー; デフォルトsonic-english→ feasible-haze。 - モバイルレイアウトの改善; マルチリンガルUIの細かい修正; ボイスクローニングと空のトランスクリプトのスタイル修正; フィルタリングを
voices/[id]からSpeakページに移動。
モデル / ボイス
sonic-multilingualとsonic-englishのエイリアス; ボイスのlanguageカラム。- 推奨ボイス。
ドキュメント
- バージョン 2024-06-10: getting started、API規約、インテグレーション(LiveKit、Pipecat、Rasa、Thoughtly、Twilio、MCP)、ボイスクローン、embeddings/ボイスミキシング。API規約 を参照。
その他
- ToS変更; 料金階層の改訂; サインインとサインアップの法的通知; プレイグラウンドの超過分トグル。
- 文字使用量制限を超えた場合のWebSocketブロック。
May 2024
API
- Cartesia Version ヘッダー; 生バイト用のHTTPストリーミング; 新しいvoicesエンドポイント; mulaw/alawの後方互換性; API標準化(後方互換性); Pythonクライアント v1.0.0; JSクライアント構造の全面刷新。
- クローンボイスアップロードの修正。
プレイグラウンド
- リデザインとSonicローンチコピー; サブスクリプションページ; ボイスのお気に入り化; 感情と速度のスライダー; UserボイスとDefaultボイス; DBとプレイグラウンドの タグ(年齢、アクセント);
sample_textフィールド(APIゲートウェイとプレイグラウンド); 再生前のストリーミング音声バッファ; 文字使用量インジケーター; ユーザー作成時のAPIキー自動作成; カスタムサインイン/サインアップとサインアウト時の404修正; 音声再生中の生成ボタン無効化; 人間が読めるモデル名とskilled-cherry。 - 文字制限の引き上げ。
モデル / ボイス
- 人間が読めるモデル名; skilled-cherry; polar-tree (
sonic-multilingual); 継続と出力フォーマット; Pythonクライアントのnumpy配列サポート。 - ボイスクローニングの免責事項。
ドキュメント
- Mintlifyドキュメントを追加。
その他
- サブスクリプション用Stripe webhooks; サブスクリプションのキャンセルと再アクティベーション; 生成ルートでの文字使用量チェック; デフォルトで無料サブスクリプション; Scaleプランの制限(月800万文字); チェックアウトと領収書。
- カスタムサインイン/サインアップページ。
April 2024
API
- generateへのパラメータとして
model_idを追加; 最小トランスクリプト長を強制;voiceをAudioGenerationRequestに移動; 実験的ルーターを削除; 速度コントロールとボイス編集ページ; 動画生成エンドポイント。 - WhisperXを依存関係から削除。
March 2024
API
- WebSocket割り込みサポート; voice embedding取得ルート; APIキーのRedisキャッシュ; ストリーミングをOctetからJSONに切り替え; 新モデル
genial-planet-1346; リクエストでvoiceパラメータを必須化; フォーマットサポート。 - 文字起こし用のWhisperX(後に削除)。
プレイグラウンド
- UIでのボイスクローニング; JSクライアントの接続情報; ダウンロード可能な音声; トランスクリプト長検証(最大400文字、空は拒否); APIキー欠如時のUX改善とクラッシュ処理; ウェルカムメッセージとアイコン。
- Clerk webhooks経由のサインアップ時のAPIキー作成。
その他
- JSクライアントのボイスクローニングと接続情報。