
ボイスクローニングの一般的なベストプラクティス
- 読み上げに適したスクリプトを選ぶ。 録音は、生成したいボイスにできるだけ近づけたいものです。たとえば、抑揚のない単調な音声を作りたい場合を除き、感情のこもらない原稿を平板な口調で読み上げるのは避けてください。代わりに、ユースケースに合った、適切なエネルギーを持つスクリプトを用意してください。
- できるだけ明瞭に話し、背景ノイズを避ける。 たとえば、自分の声を録音するときは、高品質のマイクを使用し、静かな場所にいるようにしてください。
- 長いポーズを避ける。 録音中のポーズは、たとえば文と文の間でも、クローンされたボイスに模倣されます。録音が、ボイスに従わせたいペースと一致していることを確認してください。
- 録音をトリミングする。 提供するオーディオは、最初から最後までおおよそ発話が含まれている必要があります。話者が途切れていないこと、冒頭や末尾に過度な無音がないことを確認してください。Audacity のようなツールや、私たちのプレイグラウンドを使って、録音から最適なクリップを作成できます。
- 対象言語で話す。 たとえば、クローンしたボイスにスペイン語を話させたい場合は、録音でスペイン語を話してください。これが不可能な場合は、Cartesia のローカリゼーション機能 (プレイグラウンドおよび API で利用可能) を使用して、クローンを別の言語に変換できます。
類似度の高いクローンを作成するためのベストプラクティス
- 録音は 10 秒に制限してください。 これが、類似度の高い音声複製を作成するのに最適な長さです。クリップが長くてもクローンの品質は向上しません。
- クローン作成時は
enhanceをfalseに設定してください。 ソースクリップに大量の背景ノイズがない限り、ポストプロセスを行うとクローンとソースクリップの類似度が低下します。