Pipecat

概要

Pipecat は、リアルタイムの ボイス エージェント向けのオープンソース Python フレームワークです。

ボイスエージェントを構築するには、パイプライン、メディア・通信トランスポート (Daily や LiveKit など)、プラガブルな AI モデルの作成とオーケストレーションが必要です。

Cartesia は、Pipecat リポジトリで TTS および STT サービス のファーストパーティプロバイダープラグインとして利用できます。

前提条件

Pipecat のサンプルには最近の Python のインストールが必要です (現時点の前提条件は Pipecat リポジトリのルートレベル README を参照してください)。

TTS/STT 用に cartesia エクストラを含めて pipecat-ai Python パッケージをインストールします (角括弧構文):

pip install "pipecat-ai[cartesia,...]"

# or

uv add "pipecat-ai[cartesia,...]"

サンプルに必要な トランスポート エクストラも選択する必要があります。これは、そのサンプルについて上流の README に記載されているものに合わせれば OK です。

はじめに - TTS と STT (WebSockets & HTTP)

Cartesia STT および TTS を使ったボイス重視の小規模サンプルでは、2 つのトランスポート (WebSockets または HTTP) から選べます:

Pipecat & Cartesia Voice (WebSockets)

Cartesia STT と TTS を WebSocket で使用するボイスボット。

Cartesia STT と TTS を HTTP で使用する同じフロー。

オーケストレーションされた会話型 AI

Pipecat でオーケストレーションされたエンドツーエンドのボイスエージェント体験 (VAD -> STT -> LLM -> TTS) を示す、より完成度の高いサンプルアプリについては、StudyPal を参照してください:

pipecat-examples リポジトリ内の StudyPal サンプル。