Cartesiaへようこそ

Text-to-Speech向けのSonicモデル

Sonicモデルは、テキストを入力として受け取り、非常にリアルな音声をストリームで返します。発音やアクセントを完全に制御して音声を複製することもできます。

Sonic 3.5は、世界最速で最も感情豊かな、非常にリアルなText-to-Speechモデルです。 わずか90msで最初の音声バイトを返せるため、リアルタイムや会話型の体験はもちろん、吹き替え、ナレーション、AIアバターなどにも最適です。(参考までに、90msは瞬きの約2倍の速さです。)

利用可能なSonicモデルの種類とその機能の詳細については、TTSモデルセクションを参照してください。

Speech-to-Text向けのInkモデル

Inkモデルは、リアルタイムの音声エージェント向けに最適化されたspeech-to-textの文字起こしを提供します。

Ink 2は、世界最速で最も正確な、ターン検出機能を標準搭載したストリーミングspeech-to-textモデルです。 コンテキストを使用して、ユーザーがエージェントの応答を待っているのか、エージェントがユーザーの発話の終了を待つべきなのかを的確に判断します。

Inkモデルとその機能の詳細については、STTモデルセクションを参照してください。

Cartesiaの統合、アカウント、または請求に関するサポートが必要な場合は、support@cartesia.ai までメールでお問い合わせください。

はじめに

Text-to-Speech

Speech-to-Text

ツール

連携

エンタープライズ

Text-to-Speech向けのSonicモデル

Speech-to-Text向けのInkモデル

サポート

メール

​Text-to-Speech向けのSonicモデル

​Speech-to-Text向けのInkモデル

​サポート

メール

Text-to-Speech向けのSonicモデル

Speech-to-Text向けのInkモデル

サポート