日本語の音声合成AI「Irodori-TTS(イロドリ)」は、ブラウザのデモで手軽に試せるほか、自分のパソコンにインストールして動かすこともできます。手元で動かせば、生成のたびに順番待ちすることなく、何度でも、まとめて音声を作れます。ここでは、Irodori-TTSをインストールして、コマンドやローカルのWeb画面から実際に音声を生成するまでの手順を追っていきます。
ただし、この方法はブラウザのデモより一段ハードルが上がります。NVIDIAのGPU(音声生成などの計算を高速にこなす演算装置)を積んだパソコンと、ターミナル(文字でパソコンに命令を打ち込む画面)の操作が前提になります。そのぶん、自由に・速く使えるのが利点です。
動かすための前提条件
始める前に、次の環境を用意します。
- NVIDIA GPUを積んだ Windows または Linux:CUDA(GPUで計算するための仕組み)に対応したNVIDIA GPUが基本です。AMDやIntelのGPU、GPUなしのCPUでも動かせますが、GPUがないと生成にかなり時間がかかります。
- 新しめのNVIDIAドライバー:GPUを動かすためのソフトです。あとで入れるプログラムがCUDA 12.8に対応しているため、これに対応したドライバーが必要です。古いままだとGPUを認識できないことがあるので、必要なら最新版に更新しておきます(CUDA Toolkitそのものを別途入れる必要は基本ありません)。
- ターミナルの操作:コマンドを打ち込んで進めます。
- Git:プログラム一式をダウンロードするためのツール。後述の
git cloneで使います。未導入なら、公式サイト(git-scm.com)などから先に入れておきます。 - uv:Python(プログラミング言語)の環境を手軽に整えるためのツール。未導入なら、公式ドキュメントの手順で先に入れておきます。
なお、Python本体は別途インストールする必要はありません。必要なバージョンはuvが用意してくれます。また、配布されているモデルは公開されているため、Hugging Faceのアカウント登録も要りません(初回の生成時に、モデルのデータが自動でダウンロードされます)。
インストールの手順
最初に、Irodori-TTSを置く作業用フォルダを作って移動します。場所はわかりやすいところがよく、Windowsなら C:\dev、macOSやLinuxなら ~/dev あたりが無難です(システムフォルダ内は避けます)。
# 作業用フォルダを作って、そこへ移動する
# Windows の例
mkdir C:\dev
cd C:\dev
# macOS / Linux の例
mkdir ~/dev
cd ~/dev
移動できたら、リポジトリ(プログラム一式)を取得してまとめて用意します。NVIDIAのCUDA 12.8環境なら次のとおりです。
git clone https://github.com/Aratako/Irodori-TTS.git
cd Irodori-TTS
uv sync --extra cu128
GPUの種類によって最後の行が変わります。AMD(ROCm)なら --extra rocm、Intel(XPU)なら --extra xpu、GPUを使わずCPUやMacで動かすなら --extra cpu を指定します。
コマンドでの音声生成
インストールが終わったら、まずは1つ音声を作って動作を確かめます。お手本の声を使わず、文章だけから生成する場合は、次のように打ちます。
uv run python infer.py --hf-checkpoint Aratako/Irodori-TTS-500M-v3 --text "こんにちは、私はAIです。これは音声合成のテストです。" --no-ref --output-wav outputs/sample.wav
うまくいくと、outputs フォルダの中に sample.wav という音声ファイルができあがります。初回はモデルのデータが自動でダウンロードされるため、少し時間がかかります。
お手本の声をまねさせたい(ボイスクローン=声の複製)ときは、--no-ref の代わりに --ref-wav でお手本の音声ファイルを指定します。まねたい声の音声ファイル(雑音の少ないもの)を、Irodori-TTSフォルダの中に reference.wav という名前で置けば、下のコマンドをそのまま実行できます。
uv run python infer.py --hf-checkpoint Aratako/Irodori-TTS-500M-v3 --text "こんにちは、私はAIです。これは音声合成のテストです。" --ref-wav reference.wav --output-wav outputs/sample.wav
声の特徴を文章で指定して作る(ボイスデザイン)場合は、専用のモデルを指定し、--caption でどんな声かを書きます。このモデルは長さを指定しないと長めの音声を作ろうとして重くなるため、--seconds で長さ(秒数)を指定しておきます。文章を長くするときは、その数字も増やします。
uv run python infer.py --hf-checkpoint Aratako/Irodori-TTS-500M-v2-VoiceDesign --text "こんにちは。テストです。" --caption "落ち着いた女性の声で、やわらかく読み上げてください。" --no-ref --seconds 4 --output-wav outputs/sample_voice_design.wav
ローカルのWeb画面での操作
コマンドより画面で操作したいときは、手元でWeb画面(GUI)を立ち上げられます。画面は用途で2種類に分かれていて、それぞれ別のコマンドで開きます。
ひとつは、お手本の声をまねさせる(ボイスクローン)画面です。次のコマンドを実行し、ブラウザで http://localhost:7860 を開きます。文章を入れ、必要ならお手本の音声をアップロードして生成します。
uv run python gradio_app.py --server-name 0.0.0.0 --server-port 7860
もうひとつは、声を文章で指定して作る(ボイスデザイン)画面です。次のコマンドを実行し、ブラウザで http://localhost:7861 を開きます。お手本なしで、「落ち着いた女性の声で…」のように書いて声を作れます。
uv run python gradio_app_voicedesign.py --server-name 0.0.0.0 --server-port 7861
絵文字での表情づけと利用上の注意
「Text」欄や --text の文章に特定の絵文字を入れると、笑い声・咳・ため息といった表情がつきます。どの絵文字がどんな効果になるかは、配布元の一覧(EMOJI_ANNOTATIONS.md)にまとまっています。
お手本にする声(ボイスクローンでまねさせる元の音声)は、自分の声や、許可を得た声・権利的に問題のない音声を使うようにします。本人の同意なく実在の人物(声優・著名人など)の声を複製しないことは、開発者が示している利用ルールにも明記されています。なお、生成された音声には、対応環境であれば人の耳には聞こえない電子透かし(生成物だと後から判別するための目印)が自動で埋め込まれます。
生成がうまくいかないときの調整
思いどおりにならないときに試せる調整です。
- 速く試したい:生成のステップ数を減らし、Sway Samplingという方式に切り替えると速くなります(例:
--num-steps 6 --t-schedule-mode sway --sway-coeff -1.0)。 - 漢字を読み間違える:込み入った漢字は、その部分をひらがなやカタカナに直すと安定します。
- 長さを調整したい:v3のモデルは読み上げの長さを自動で見積もります。
--duration-scaleで伸ばす・縮める(1より大きいと長く、小さいと短く)、--secondsで秒数を直接指定することもできます。
そのほかの細かい設定は、配布元の Parameter Guide(docs/parameters.md)にまとまっています。


コメント