Skip to main content
ボイスミキシングを使用するためにエンベディングを理解する必要はありません。ボイスミキシングは プレイグラウンド および API で利用できます。
Cartesia のモデルは、ボイスを エンベディング の形で表現します。エンベディングは -1 から 1 の間の浮動小数点数からなる長さ 192 のベクトルです。これらの数値は、速度、感情、アクセントなど、ボイスの特性をまとめて表現します。 現在、Cartesia のテキスト読み上げエンドポイントは、生成のたびにエンベディングを指定する必要があります。エンベディングの代わりにボイス ID を指定できるサポートも予定されています。

ボイスミキシング [アルファ]

エンベディングが可能にする便利な機能のひとつが ボイスミキシング です。2 つのエンベディングを補間して、両者の中間に聞こえる 3 つ目のボイスを得ることができます。この機能は プレイグラウンド で利用可能です。 エンベディング間の補間には線形補間を使うことをおすすめします。エンベディング AABB を補間して CC を得るには、次の式を使います: C=(1α)A+αBC = (1-\alpha )A + \alpha B α\alpha (アルファ) は「補間係数」で、アルファが 1 のときは C=BC = B、アルファが 0 のときは C=AC = A となります。たとえば α=0.5\alpha=0.5 では、C=0.5A+0.5B.C=0.5A+0.5B. になります。
混合されたボイスの知覚は、補間係数に対して線形には変化しません。たとえば、知覚的に 50/50 のミックスを得るには、いずれかのボイス寄りに調整する必要があるかもしれません。最良の結果を得るには、少し探索してみてください。

プロトタイプエンベディング

プレイグラウンドのボイスデザイン機能 (速度や感情のコントロール) は、プロトタイプエンベディング に依存しています。これらは、速さ、遅さ、怒り、好奇心などの特定の特性のエッセンスを捉えたエンベディングです。あるボイスをプロトタイプエンベディングと補間すると、そのプロトタイプエンベディングの特性を獲得します。
現在のボイスデザインのスライダー (速度、感情) は、話者の同一性を変えてしまう可能性があります。変更を小さくすることで軽減できますが、この機能の安定性を向上させるよう取り組んでいます。