
Text-to-Speech向けのSonicモデル
Sonicモデルは、テキストを入力として受け取り、非常にリアルな音声をストリームで返します。発音やアクセントを完全に制御して音声を複製することもできます。 Sonic 3.5は、世界最速で最も感情豊かな、非常にリアルなText-to-Speechモデルです。 わずか90msで最初の音声バイトを返せるため、リアルタイムや会話型の体験はもちろん、吹き替え、ナレーション、AIアバターなどにも最適です。(参考までに、90msは瞬きの約2倍の速さです。) 利用可能なSonicモデルの種類とその機能の詳細については、TTSモデル セクションを参照してください。Speech-to-Text向けのInkモデル
Inkモデルは、リアルタイムの音声エージェント向けに最適化されたspeech-to-textの文字起こしを提供します。 Ink 2は、世界最速で最も正確な、ターン検出機能を標準搭載したストリーミングspeech-to-textモデルです。 コンテキストを使用して、ユーザーがエージェントの応答を待っているのか、エージェントがユーザーの発話の終了を待つべきなのかを的確に判断します。 Inkモデルとその機能の詳細については、STTモデル セクションを参照してください。サポート
Discord
Discordサーバーに参加して、Cartesiaチームとチャットしたり、コミュニティと交流したり、プロジェクトでのサポートを受けたりしましょう。
メール
Cartesiaの統合、アカウント、または請求に関するサポートが必要な場合は、support@cartesia.ai までメールでお問い合わせください。