Voice Changer (Bytes)

Takes an audio file of speech, and returns an audio file of speech spoken with the same intonation, but with a different voice. This endpoint is priced at 15 characters per second of input audio.

Request

This endpoint expects a multipart form containing a file.

clipfileRequired

voice[id]stringRequired

output_format[container]enumRequired

Allowed values:

output_format[sample_rate]integerRequired

output_format[encoding]enumOptional

Required for raw and wav containers.

Allowed values:

output_format[bit_rate]integerOptional

Required for mp3 containers.

Response

This endpoint returns a file.

1	import requests
2
3	url = "https://api.cartesia.ai/voice-changer/bytes"
4
5	files = { "clip": "open('<file1>', 'rb')" }
6	payload = {
7	"voice[id]": "694f9389-aac1-45b6-b726-9d9369183238",
8	"output_format[container]": "mp3",
9	"output_format[sample_rate]": "44100",
10	"output_format[encoding]": ,
11	"output_format[bit_rate]": "128000"
12	}
13	headers = {
14	"Cartesia-Version": "2025-04-16",
15	"Authorization": "Bearer <token>"
16	}
17
18	response = requests.post(url, data=payload, files=files, headers=headers)
19
20	print(response.json())

Headers

Request

Response