テキストを入れると自然な音声で読み上げてくれる——そういうテキスト読み上げ(TTS、Text to Speech=文字を音声に変換する技術)のモデルはいくつもあります。Qwen3-TTS(クウェン・スリー・ティーティーエス)が目を引くのは、無料で手元のパソコンでも動かせて、日本語を含む10言語に対応し、しかも「この人の声」を再現するクローンや「こんな声で」という言葉での指定までできるところです。アリババのQwenチームが2026年1月に公開した、オープンソースのモデルです。
ここでは、これを自分のパソコンにインストールして動かす方法を見ていきます。
インストールから起動までの手順
前提として、NVIDIA製GPUの載ったパソコンが必要です(GPUがないと動きません)。あとは次の手順を上から順にやれば、ブラウザから使える操作画面が立ち上がります。途中を飛ばすと起動しないので、順番に進めてください。
- Anaconda(またはMiniconda)をダウンロードしてインストールする
このあと使うcondaコマンドを使えるようにするためのものです。Anaconda公式サイト からインストーラーをダウンロードし、ダウンロードしたファイルを実行してインストールします(基本は画面の表示に従って進めればOKです)。 - 専用のPython環境を作って、その中に入る
インストールが終わったら、スタートメニューから「Anaconda Prompt」を開きます。以降のコマンドは、すべてこの画面の中で実行します(ふつうのコマンドプロンプトだとcondaコマンドが見つからないことがあります)。ほかの環境とぶつからないように、Qwen3-TTS専用の環境を用意します。次の2つを順に実行します。conda create -n qwen3-tts python=3.12 -yconda activate qwen3-tts - Qwen3-TTS本体を入れる
pip install -U qwen-tts
これを実行して初めて、次のqwen-tts-demoコマンドが使えるようになります。ここを飛ばすと起動しません。 - PyTorchをGPU対応版に入れ替える
前の手順では、GPUがあってもCPU専用のPyTorchが入ることがあります。その状態だと起動時に「Torch not compiled with CUDA enabled」と出て止まるので、GPU対応版に入れ替えておきます。次の2つを順に実行します。pip uninstall -y torch torchaudiopip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124
(cu124はCUDA 12系向けの版で、最近のNVIDIA環境ならこれで動きます。自分の環境に合う正確なコマンドは PyTorch公式サイト でも確認できます。入れ替え後にpython -c "import torch; print(torch.cuda.is_available())"を実行してTrueと出れば、GPUを使える状態です。) - 操作画面(Web UI)を起動する
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000 --no-flash-attn
初回はモデルのデータ(数GBあります)が自動でダウンロードされるので、少し時間がかかります。末尾の--no-flash-attnは、環境によっては入れるのが難しい高速化部品(flash-attn)を使わない、という指定です。これを付けないと、その部品を探して起動が止まることがあります。 - ブラウザで開く
起動が進んでRunning on ...のような表示が出たら、ブラウザでhttp://localhost:8000を開きます。下のような操作画面が出れば成功です。

上の画面で文章を入れて生成すれば、手元のパソコンだけで音声が作れます。パソコンのGPUが非力な場合は、手順5のコマンドのモデル名を Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice に変えると、軽い小型版で動かせます(そのぶん品質はやや下がります)。
もし起動の途中で「ページング ファイルが小さすぎるため…(os error 1455)」というエラーが出たら、Windowsの仮想メモリが足りていません。ブラウザやそのほかの重いソフトをいったん閉じてから、もう一度起動コマンドを実行すると通ることが多いです。それでも出る場合は、Windowsの「仮想メモリ」設定でページングファイルのサイズを大きめにしてから、パソコンを再起動してください。
3種類のモデルの違い
Qwen3-TTSには用途別に3つのモデルがあります。使い分けは、起動コマンドのモデル名を差し替えるだけです。
あらかじめ用意された声から選ぶ(CustomVoice):
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000 --no-flash-attn
言葉で声を設計する(VoiceDesign):
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000 --no-flash-attn
手本の音声から声を再現する、いわゆるクローン(Base):
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --ip 0.0.0.0 --port 8000 --no-flash-attn
別のモデルに切り替えるときは、いま動いている画面で Ctrl + C を押して止めてから、起動し直します。初回はモデルごとにデータ(数GB)のダウンロードが入ります。
使うときの注意点
くり返しになりますが、手元で動かすにはNVIDIA製GPUが要ります。また初回はモデルのダウンロードに時間がかかり、1.7B版はそれなりの容量とメモリを使います。まず試したいという段階なら、軽い0.6B版から始めるのが無難です。
品質は言語によって差があります。対応言語は中国語・英語・日本語・韓国語・ドイツ語・フランス語・ロシア語・ポルトガル語・スペイン語・イタリア語の10種類ですが、開発元の評価でも言語ごとに精度の数値は違っていて、評価の中心は英語と中国語です。日本語にも対応していますが、実際の使い心地は、自分が使う言語と声で一度試して確かめるのが確実です。
なお、ここで挙げたモデル名や対応状況は執筆時点のものです。更新が速い分野なので、最新の情報は公式の各ページで確認してください。
細かい設定はいろいろありますが、まずは付属のWeb UIで1文だけ音にしてみると、Qwen3-TTSでできることのイメージがつかめると思います。


コメント