Qwen3-TTSを自分のパソコンにインストールして動かす手順

テキストを入れると自然な音声で読み上げてくれる——そういうテキスト読み上げ（TTS、Text to Speech＝文字を音声に変換する技術）のモデルはいくつもあります。Qwen3-TTS（クウェン・スリー・ティーティーエス）が目を引くのは、無料で手元のパソコンでも動かせて、日本語を含む10言語に対応し、しかも「この人の声」を再現するクローンや「こんな声で」という言葉での指定までできるところです。アリババのQwenチームが2026年1月に公開した、オープンソースのモデルです。

ここでは、これを自分のパソコンにインストールして動かす方法を見ていきます。

インストールから起動までの手順

前提として、NVIDIA製GPUの載ったパソコンが必要です（GPUがないと動きません）。あとは次の手順を上から順にやれば、ブラウザから使える操作画面が立ち上がります。途中を飛ばすと起動しないので、順番に進めてください。

Anaconda（またはMiniconda）をダウンロードしてインストールする
このあと使う conda コマンドを使えるようにするためのものです。Anaconda公式サイトからインストーラーをダウンロードし、ダウンロードしたファイルを実行してインストールします（基本は画面の表示に従って進めればOKです）。
専用のPython環境を作って、その中に入る
インストールが終わったら、スタートメニューから「Anaconda Prompt」を開きます。以降のコマンドは、すべてこの画面の中で実行します（ふつうのコマンドプロンプトだと conda コマンドが見つからないことがあります）。ほかの環境とぶつからないように、Qwen3-TTS専用の環境を用意します。次の2つを順に実行します。
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
Qwen3-TTS本体を入れる
pip install -U qwen-tts
これを実行して初めて、次の qwen-tts-demo コマンドが使えるようになります。ここを飛ばすと起動しません。
PyTorchをGPU対応版に入れ替える
前の手順では、GPUがあってもCPU専用のPyTorchが入ることがあります。その状態だと起動時に「Torch not compiled with CUDA enabled」と出て止まるので、GPU対応版に入れ替えておきます。次の2つを順に実行します。
pip uninstall -y torch torchaudio
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124
（cu124 はCUDA 12系向けの版で、最近のNVIDIA環境ならこれで動きます。自分の環境に合う正確なコマンドは PyTorch公式サイトでも確認できます。入れ替え後に python -c "import torch; print(torch.cuda.is_available())" を実行して True と出れば、GPUを使える状態です。）
操作画面（Web UI）を起動する
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000 --no-flash-attn
初回はモデルのデータ（数GBあります）が自動でダウンロードされるので、少し時間がかかります。末尾の --no-flash-attn は、環境によっては入れるのが難しい高速化部品（flash-attn）を使わない、という指定です。これを付けないと、その部品を探して起動が止まることがあります。
ブラウザで開く
起動が進んで Running on ... のような表示が出たら、ブラウザで http://localhost:8000 を開きます。下のような操作画面が出れば成功です。

上の画面で文章を入れて生成すれば、手元のパソコンだけで音声が作れます。パソコンのGPUが非力な場合は、手順5のコマンドのモデル名を Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice に変えると、軽い小型版で動かせます（そのぶん品質はやや下がります）。

もし起動の途中で「ページングファイルが小さすぎるため…（os error 1455）」というエラーが出たら、Windowsの仮想メモリが足りていません。ブラウザやそのほかの重いソフトをいったん閉じてから、もう一度起動コマンドを実行すると通ることが多いです。それでも出る場合は、Windowsの「仮想メモリ」設定でページングファイルのサイズを大きめにしてから、パソコンを再起動してください。

3種類のモデルの違い

Qwen3-TTSには用途別に3つのモデルがあります。使い分けは、起動コマンドのモデル名を差し替えるだけです。

あらかじめ用意された声から選ぶ（CustomVoice）：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000 --no-flash-attn

言葉で声を設計する（VoiceDesign）：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000 --no-flash-attn

手本の音声から声を再現する、いわゆるクローン（Base）：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --ip 0.0.0.0 --port 8000 --no-flash-attn

別のモデルに切り替えるときは、いま動いている画面で Ctrl + C を押して止めてから、起動し直します。初回はモデルごとにデータ（数GB）のダウンロードが入ります。

使うときの注意点

くり返しになりますが、手元で動かすにはNVIDIA製GPUが要ります。また初回はモデルのダウンロードに時間がかかり、1.7B版はそれなりの容量とメモリを使います。まず試したいという段階なら、軽い0.6B版から始めるのが無難です。

品質は言語によって差があります。対応言語は中国語・英語・日本語・韓国語・ドイツ語・フランス語・ロシア語・ポルトガル語・スペイン語・イタリア語の10種類ですが、開発元の評価でも言語ごとに精度の数値は違っていて、評価の中心は英語と中国語です。日本語にも対応していますが、実際の使い心地は、自分が使う言語と声で一度試して確かめるのが確実です。

なお、ここで挙げたモデル名や対応状況は執筆時点のものです。更新が速い分野なので、最新の情報は公式の各ページで確認してください。

細かい設定はいろいろありますが、まずは付属のWeb UIで1文だけ音にしてみると、Qwen3-TTSでできることのイメージがつかめると思います。

Qwen3-TTSを自分のパソコンにインストールして動かす手順

インストールから起動までの手順

3種類のモデルの違い

使うときの注意点

出典・参考リンク

コメント