> ## Documentation Index
> Fetch the complete documentation index at: https://docs.cartesia.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# カスタム発音の指定

> 固有名詞やドメイン固有の用語など、正しい発音を得るのが難しい単語に対してカスタム発音を指定する方法を学びます。

Sonic TTS ファミリーのすべてのモデルは、原稿内でのカスタム発音をサポートしています。

`sonic-2` と `sonic-turbo` は、すべての言語で MFA スタイルの IPA を使用します。
発音の制御性を最大限に高めたい場合は、`sonic-2` の使用を推奨します。

旧 Sonic モデルでもカスタム発音を利用できます。
`sonic`、`sonic-2024-12-12`、`sonic-2024-10-19` の各モデルは、英語に対して Sonic 独自の IPA 音素を使用します。
`sonic` と `sonic-2024-12-12` は英語以外の言語に対して MFA スタイルの IPA を使用し、Sonic Preview モデルはすべての言語で MFA スタイルの IPA を使用します。
なお、`sonic-2024-10-19` は英語以外の言語のカスタム発音をサポートしません。
すべてのモデルを近日中に MFA スタイルの IPA に更新する予定です。

カスタム単語は二重山括弧 `<<` `>>` で囲み、音素間にはパイプ文字 `|` を入れ、空白は入れないでください。
例:

* `Can I get <<x|a|l|a|p|e|ɲ|o>> on that?` (MFA スタイル IPA)
* `Can I get <<h|ɑː|l|ˈə|p|eɪ|n|y|ˌoʊ|>> on that?` (Sonic 独自 IPA)

個々の単語は、それぞれ独自の山括弧で囲んでください。

# MFA スタイル IPA

## 発音の構築

[Montreal Forced Aligner](https://montreal-forced-aligner.readthedocs.io/en/latest/) で定義されている IPA 音素セットを使用しています。この音素セットはサイズが大きく複雑なため、既知の音素化を持つ既存の単語から始めてカスタム発音を構築する方が簡単かもしれません。単語のカスタム発音を構築する際の推奨ワークフローは次のとおりです。

1. [MFA 発音辞書のインデックス](https://mfa-models.readthedocs.io/en/latest/dictionary/index.html) に移動し、対象の言語のページを探します。音素セットが MFA であることを確認し、最新バージョン (ほとんどの言語では v3.0 または v3.1) をダウンロードしてください。
   1. このページの "phones" セクションに、対象言語で許容される音素の全範囲が表示されます。
2. `Installation` セクションまでスクロールし、`Download from the release page` リンクをクリックします。
3. リリースページの一番下までスクロールして .dict ファイルをダウンロードします。これは単語をその構成音素にマッピングするテキストファイルです。
   1. ファイルの最初の列に単語があり、最後の列に空白区切りの音素があります。その他の列は無視してください。
4. 辞書内で対象の単語、または意図する発音に似た単語を検索します。これらの発音を出発点としてカスタム発音を構築します。

音声サンプルに基づく自動発音提案は今後のアップデートで追加予定です。なお、MFA スタイル IPA はストレス記号をサポートしていません。

## 例

「This is a generation from Cartesia」というテキストを生成したいときに、モデルが「Cartesia」を正しく発音しないとします。次の手順を行います。

1. [MFA 発音辞書のインデックス](https://mfa-models.readthedocs.io/en/latest/dictionary/index.html) に移動し、英語の発音辞書を探します。US 英語の場合、最新のバージョンは v3.1 です。
   1. ページには、US 英語で許容される音素は `aj aw b bʲ c cʰ cʷ d dʒ dʲ d̪ ej f fʲ h i iː j k kʰ kʷ l m mʲ m̩ n n̩ ow p pʰ pʲ pʷ s t tʃ tʰ tʲ tʷ t̪ v vʲ w z æ ç ð ŋ ɐ ɑ ɑː ɒ ɒː ɔj ə ɚ ɛ ɝ ɟ ɟʷ ɡ ɡʷ ɪ ɫ ɫ̩ ɱ ɲ ɹ ɾ ɾʲ ɾ̃ ʃ ʉ ʉː ʊ ʎ ʒ ʔ θ` であると書かれています。

2. [リリースページ](https://github.com/MontrealCorpusTools/mfa-models/releases/tag/dictionary-english_us_mfa-v3.1.0) の下部から .dict ファイルをダウンロードします。

3. この辞書で「Cartesia」の希望する発音に似た単語を探します。辞書には次のエントリがあります。

   `cartesian	0.99	0.14	1.0	1.0	kʰ ɑ ɹ tʲ i ʒ ə n`

4. 中央の数値 4 列は無視します。「-an」に対応する発音部分を切り取り、「uh」の音に置き換えたいと考えます。MFA の「uh」音素は `ɐ` であることを知っています (もし知らなければ、辞書で「uh」を検索することもできます)。したがって希望する発音は `kʰ ɑ ɹ tʲ i ʒ ɐ` です。

5. 音素をパイプ文字で区切り、空白を入れずに山括弧で囲みます。したがって、原稿は `This is a generation from <<kʰ|ɑ|ɹ|tʲ|i|ʒ|ɐ>>` となります。

# (非推奨) Sonic 独自 IPA

Sonic 独自 IPA は `sonic` 専用であり、最新のモデル (`sonic-2` と `sonic-turbo`) のユーザーは MFA スタイル IPA を使用してください。

以下は Sonic 独自 IPA の発音ガイドです。
ほとんどの音素は [Wikipedia の英語音韻論の記事](https://en.wikipedia.org/wiki/English_phonology) に従っていますが、モデルが想定とは異なる表記を必要とする箇所では、欄外に青い `<=` を付けています。

これらの珍しい記号は、元の[こちらのチャート](https://docs.google.com/spreadsheets/d/1OJbiKtxLyodpNPqVfOu43X2HloLsAixTtFppEuQ_4pI/edit?usp=sharing)からコピー＆ペーストすることもできます。

<Frame>
  <img src="https://mintcdn.com/cartesia-2650f86a/GOsvXpql8JfAlgjy/assets/images/sonic_ipa_guide.png?fit=max&auto=format&n=GOsvXpql8JfAlgjy&q=85&s=73894e30d68160ffb033b49a2df4fd2d" alt="" width="960" height="540" data-path="assets/images/sonic_ipa_guide.png" />
</Frame>

## ストレスと母音長の記号

Sonic English は、第 1 (`ˈ`) と第 2 (`ˌ`) ストレスのある音節に対するストレス記号を必要とし、これらは母音の直前に配置します。母音の長さ (`ː`) のアノテーションも使用します。モデルはこれらなしでも動作しますが、これらを使用するとロバストネスと制御性が顕著に向上します。
