May 2026
Speech-to-Text
- Ink-2、最先端のストリーミングSTTモデル — ビルトインのターン検出と、ノイズの多い環境でも正確な文字起こしにより、応答性の高いリアルタイムの音声体験を構築できます。現時点では英語のみのサポートで、他の言語は後日追加されます。
- Cartesiaプレイグラウンド で試してみてください。
- API、Python、TypeScript/JavaScript、LiveKit、PipeCat 経由で統合できます。
- Deepgram Fluxからの切り替えですか? マイグレーションガイド を参照してください。
Text-to-Speech
- Sonic 3.5 が一般提供開始 — 私たちの最も自然で表現豊かなTTSモデルがプレビューを終え、本番運用可能になりました。最新の安定スナップショットには
sonic-3.5エイリアスを使用してください。Sonic 3.5モデルの概要 を参照してください。- Sonic 3からの切り替えですか? 本番トラフィックを移行する前に、変更点と確認すべきことについて Sonic 3から Sonic 3.5への移行 を参照してください。
- 速度と音量のコントロール — 速度と音量を上下に調整して、ボイスを望む通りに鳴らすことができます。速度と音量のガイド を参照してください。
Line / エージェント
- より自然な会話 — 対象となるLineエージェントは、デフォルトでSonic 3.5(TTS)とInk 2(STT)で動作し、自然さ、ペース、レイテンシ、ターンの取り方が向上します。設定変更は不要です。
- Twilioアカウントの持ち込み — Twilioアカウントを接続し、既存の電話番号をインポートできます。プランに含まれる無料のCartesiaプロビジョニング番号も引き続き使用できます。Twilio統合ガイド を参照してください。
- SIPトランキング (ベータ) — SIP(Session Initiation Protocol)トランキングを使用して、既存の電話システムをCartesiaのボイスエージェントに直接接続します。早期アクセスについては support@cartesia.ai までお問い合わせください。
- 電話番号とプロバイダーAPI — API経由で電話番号やプロバイダーをプロビジョニング、インポート、設定できます。電話番号API を参照してください。
ボイス
- ロケールでボイスをフィルタリング — ボイスをリストするときに、言語フィールドにロケール(例:
en-GB)を渡すことで、適切なアクセントのボイスを見つけることができます。APIレスポンスには、各ボイスの地域アクセントを識別しやすくするcountryフィールド(例:GB)が追加されました。voices APIリファレンス を参照してください。 - 11ロケールにわたる57の新規ボイス — ボイスライブラリ に
ar-AE、de-DE、en-CA、en-GB、en-NZ、en-US、en-ZA、es-MX、fr-CA、he-IL、th-THを含む57の新規ボイスを追加しました。
April 2026
Sonic 3.5
Sonic 3.5 はsonic-3-latest で利用可能になりました。ぜひ試して、感想をお聞かせください。試すべき理由
- より自然な発話、ペース、感情表現、特に表現豊かで会話的、サポート系のトランスクリプトで顕著です。
- すべての言語とボイスで よりクリアな音声品質。
- 英数字の読み上げの改善 — 確認コード、注文番号、電話番号、ID、メールアドレスが、すべてのサポート言語で大幅に自然に聞こえます。
- マルチリンガル性能の大幅な向上、特にヘブライ語、日本語、スペイン語、ヒンディー語、ドイツ語、韓国語、フランス語。
- 英語の同形異音語 — 「read」「bass」「bow」のようなトリッキーな英語の同形異音語が、文脈に応じて正しく発音されるようになりました。
試し方
- APIコールまたはプレイグラウンドリクエストをモデルID
sonic-3-latestに向けます。 - 既存のボイスID、リクエスト形状、プロンプトをそのまま使用します — ほとんどのお客様はコードの変更は不要です。
- 期待と異なる動作をするボイスやトランスクリプトについてフィードバックをお送りください。
他の
-latest エイリアスと同様に、sonic-3-latest は予告なしに更新される可能性があり、本番環境での使用は推奨されません。本番トラフィックには日付付きスナップショット(例: sonic-3)にピン留めしてください。成功するために知っておくべきこと
- Spellタグは同じように動作します。 すでに英数字を
<spell>...</spell>でラップしている場合、何も変更する必要はありません — 音質がより良くなるだけです。詳細は プロンプトのヒント を参照してください。 - カスタム区切り文字を使用している場合(文字またはグループ間のカンマ/ピリオド)、ペーシングを制御するための推奨フォーマットが変更されました。文字間にはスペース、グループ間にはカンマを使用します。例:
A, B, C. 1, 2, 3.の代わりにA B C, 1 2 3。詳細は プロンプトのヒント を参照してください。 - 速度と音量のコントロールは
sonic-3-latestで一時的に無効化されています。 速度または音量の増強(SSML経由を含む)に依存している場合は、今のところsonic-3のままにしてください。Sonic 3.5はより自然なペースを持ち、このモデルを使用するときには速度コントロールをそれほど使用する必要がないかもしれません。 - タイムスタンプの動作がわずかに異なります。 割り込み処理に語末タイムスタンプを使用している場合、大きな変化は見られないはずです。語頭タイムスタンプに依存している場合は、慎重にテストし、ユースケースで後退が見られた場合はご連絡ください。
- 既存のProfessional Voice Clones (PVCs) は
sonic-3-latestに引き継がれません。 Professional Voice Clonesは、トレーニングされたベースモデル(例:sonic-3)にピン留めされており、このモデルでは標準のボイスクローンとして機能します。詳細は Pro Voice Clone を参照してください。 - モデルに適切なコンテキストを提供すると、自然さが向上します。 詳細は バッファリングガイド を参照してください。
ヘルプの参照先
API
- 使用量とAPIキー — 使用量 と APIキー 用の新しいHTTP API。
- Speech-to-Text (STT) — ドキュメントの改善。STTストリーミング を参照。
プレイグラウンド
- 改善された通話詳細体験 — 通話を確認する際に トランスクリプトをクリック して音声をシークできます。
- 通話のキャンセル — 誤ってアウトバウンドコールを発信した場合などに、プレイグラウンドから アクティブな通話をキャンセル できるようになりました。
- キー — 組織がアクセスを持っている場合、Standard と Admin タブを備えた1つの Keys 画面。
- 発音辞書 — 組織に紐づく辞書のアプリ内 リストと詳細 ビュー。
Line / エージェント
- LLMプロバイダー — エージェント推論パスを Anthropic に標準化; セットアップコピーとデフォルトが、ボイスエージェントを Gemini キーに向けることはなくなりました。
- OpenAI WebSocketモード — OpenAIのWebSocketモードをサポートするようになりました。エージェント推論で 低レイテンシ を提供します。
- 転送と通話終了の割り込み — Line SDKでは、転送 と 通話終了 を 割り込み不可 として設定できます。
モデル / ボイス
- ボイスライブラリ — 10 ロケールにわたる 34 の新規ボイス(
ar-001、de-DE、en-US、en-AU、he-IL、hi-IN、ko-KR、tl-PH、ta-IN、te-IN)。 - ボイスクローニング — クローン作成時の M4A(および類似)ソースクリップのアップロードの信頼性を向上。
セルフホスト
- プレイグラウンド — オンプレミスデプロイメントにボイスを追加。
- 発音辞書 — クラウドからセルフホストスタックへ辞書をインポートする
POST /onprem/add-pdict。 - STT — セルフホスト環境で 設定済みプロバイダー 統合経由でのオプションのストリーミングSTT。
March 2026
破壊的変更
- Text-to-Agent (T2A) API — LineのText-to-Agentワークフローは 非推奨化 されました。
API
- エラーレスポンス —
Cartesia-Version: 2026-03-01では、構造化されたJSONを返すようになりました。APIエラー を参照。2026-03-01より前のAPIバージョンは、引き続きレガシーエラーフォーマット(例: HTTPTitle: Message)を返します。- ボイス —
PATCH /voices/{id}: ボイスのオーナーがアクセントと性別を更新できるようになりました。ボイス作成時に言語を検証。無効なボイスUUIDと発音辞書IDは、曖昧なエラーの代わりに404を返します。
- PVCモデルルーティング — PVCボイスは、
sonic-3ではなく日付付きモデルID(例:sonic-3-2026-01-12)を必要とします。Pro Voice Clone を参照。 - ボイス検索 — 名前とメタデータの検索は 発音区別符号を無視 します。
プレイグラウンド
- Pro Voice Clones
- より明確な 言語の不一致 メッセージング
- 背景ノイズ除去 がシンプルなオン/オフコントロールに
- ファインチューニングモデルサポート:
- 古いモデルのサポートを削除
- 現在は sonic-3-2026-01-12 のみサポート
- マルチリンガルエージェント — プレイグラウンドでマルチリンガルエージェントの設定がサポートされました。
- エージェントUI — コールID と エージェントID で検索。
請求
- 並行性 — 組織は、並行性が設定された 制限 に近づいたときに 通知 を受け取ることができます。
モデル / ボイス
- Professional Voice Clones — バックエンドの更新により、プロフェッショナルボイスクローニングのワークフローの安定性が向上。
- アクセント & フィルター — 追加の アクセント オプション(例: アイルランド、ニュージーランド、南アフリカ、ベルギー)と、APIおよびプレイグラウンドでのアクセントフィルタリング用 ロケールエイリアス。
- ボイスライブラリ — 17 ロケール(アラビア語、ドイツ語、英語のバリエーション、スペイン語、フィンランド語、フランス語、ヘブライ語、ヒンディー語、日本語、韓国語、ポーランド語、ポルトガル語、スウェーデン語、テルグ語、タイ語などを含む)にわたる 94 の新規ボイス。
セルフホスト
- オンプレミス — セルフホストデプロイメント上のボイスを管理するためのAPI。
Cartesia SDK
-
cartesia-js v3.0.0(3月2日) — メジャーアップデート:
- 新機能: chunk と voice changer バイナリレスポンスに
flush_idを含む;output_formatと infill のサポート; インラインWebSocketレスポンスタイプ; byteエンドポイントが ArrayBuffer を返す; WebPlayer とクライアントエクスポートの改善。 - 修正: abortシグナル/リスナーのメモリリークとタイミングの問題、空の
Content-Lengthの処理、TimeoutError にメッセージが含まれるようになりました。
- 新機能: chunk と voice changer バイナリレスポンスに
February 2026
Line
- 履歴管理API: エージェントに提供される履歴を追加または置き換えることができます。例えば、長い会話を要約する場合などに使用します。
- カスタムユーザーイベント: クライアントとエージェントの間で双方向のカスタムイベントを送信できます。例えば、UIインタラクションを持つWebアプリケーションがある場合に使用できます。
- 割り込み不可メッセージ: メッセージを割り込み不可として設定できます。一般的なユースケースは、通話開始時の法的免責事項です。
- エンドツールコールの改善: デフォルトのエンドコールツールコールがより保守的になり、通話が早期終了するのを防ぎます。
API
- API接続の信頼性向上
Cartesia SDK
- cartesia-python v3.0.0(2月9日)。詳細は cartesia-pythonのリリース を参照してください。
プレイグラウンド
- 新しいTTSページをリリース
- 新しいボイス作成ページをリリース
- 新しいエージェントページをリリース
モデルの変更
- 言語にまたがる実世界のテキストパターンの発音の改善
- 構造化およびフォーマット化された発話パターンのサポート強化: 数字、日付、時刻、通貨、電話番号、ID、パーセンテージ、量/測定単位。
- 各種日付フォーマットのサポート(YYYY-MM-DD、YYYY/MM/DD、年月日)。
- フランス語、イタリア語、ドイツ語、ポルトガル語、韓国語などのロケール固有のチャンキングを伴う、国内および国際の電話番号フォーマットのサポート。
- 測定単位(メートル、kg、大さじ、ギガバイトなど)のロケール認識サポート。
- カタカナ/ひらがな読みでの英数字ID処理の改善と、日本語のラテン頭字語のカタカナへの音訳。
- 英語、ヒンディー語およびその他のインド系言語、アラビア語、ヘブライ語、中国語、スウェーデン語、ジョージア語、ブルガリア語、タガログ語を除くすべての言語で改善(これらは将来の更新で対応予定)。
- 言語内の地域およびロケール固有の発音のサポート
- 地域ボイスは、アクセントに加えて地域固有の用語を使用します(例: ベルギーとスイスのフランス語の「nonante」 vs. カナダとフランスの「quatre-vingt-dix」)。
- 地域固有の数字用語、通貨記号、日付フォーマット、測定単位。
- ロケール認識の日付と時刻のフォーマット(例: ロシア語の年接尾辞、フランス語/スペイン語の時刻規約)。
- ロケール認識の通貨記号処理(例: en_USの$は「dollars」、es_MXでは「pesos」)。
- ロケールの発音はその言語の主要国にフォールバックします(例: 英語は米国、ポルトガル語はブラジル)。ロケール認識サポートを継続的に拡張します。
- 英語、ヒンディー語およびその他のインド系言語、アラビア語、ヘブライ語、中国語、スウェーデン語、ジョージア語、ブルガリア語、タガログ語を除くすべての言語で改善(これらは将来の更新で対応予定)。英語ボイスの既存の地域発音(例: イギリス英語)は影響を受けません。
ボイスの変更
- ボイスライブラリ: 21ロケールにわたる39の新規ボイス
2026年6月1日付の破壊的変更
以下のモデルスナップショットと言語は、2026年6月1日付で廃止されます:| モデル | スナップショット | 言語 |
|---|---|---|
sonic | すべて | すべて |
sonic-english | — | すべて |
sonic-multilingual | — | すべて |
sonic-2 | sonic-2-2025-04-16, sonic-2-2025-05-08, sonic-2-2025-06-11 | it, nl, pl, ru, sv, tr, hi |
sonic-2-2025-03-07 | すべて | |
sonic-turbo | sonic-turbo-2025-06-04 | it, nl, pl, ru, sv, tr |
sonic-turbo-2025-03-07 | すべて |
| 廃止エンドポイント | 代替 |
|---|---|
Voice Embedding: POST /voices/clone/clip | Clone Voice |
Mix Voices: POST /voices/mix | — |
Create Voice: POST /voices | Clone Voice |
| 破壊的変更があるエンドポイント | 代替 |
|---|---|
TTS (bytes): POST /tts/bytes | ボイスID |
TTS (SSE): POST /tts/sse | ボイスID |
TTS (WebSocket): WSS /tts/websocket | ボイスID |
January 2026
API
モデルの変更
- Sonic-3 モデルバージョニングスキーム導入
- 新しいプレビュートラック:
sonic-3-latest(早期アクセスとフィードバック用に継続更新)。 - 安定トラック:
sonic-3は常に最新の安定リリースを指します。 - イミュータブルな日付付きスナップショット:
sonic-3-YYYY-MM-DDは変更されません。 - 詳細: 継続更新とモデルスナップショット
- 新しいプレビュートラック:
- 安定版チェックポイントへのプロモーション:
sonic-3-2026-01-12- 含まれる改善: 一貫した速度と音量、より強い遵守を持つカスタムIPA発音、ヒンディー語の韻律改善、韓国語の韻律/イントネーション改善。
ボイスの変更
- フィーチャードボイスがローンチ — 30以上のベストパフォーマンスボイスのキュレーションセット(例: Cathy、Henry)。
- ボイスライブラリ — 12月: 6言語にわたる25の新規ボイス。
- ボイスライブラリ — 1月: 9のスペイン語ボイス(メキシコ、コロンビア、カスティリャ)。
プレイグラウンド
- ボイスライブラリのユーザビリティ改善(自分のスクリプトでテスト、ボイスごとにエージェントを呼び出し)。
- TTSプレイグラウンドでのワンクリック 問題を報告。
- TTSページのミニボイスピッカー(最近使用 + 保存済み)。
- PVC UI + 信頼性(ローディングスケルトン、エラーメッセージ、大規模データセットと無音区間に対するより良い動作)。
Line
- Line SDK v0.2 — リポジトリ。改善されたDX、長時間実行ツールコール処理、コミット済みターン、より良いターンの取り方と文字起こし。