Qwen3-TTSを自分のパソコンにインストールして動かす手順

AI・テクノロジー
スポンサーリンク

テキストを入れると自然な音声で読み上げてくれる——そういうテキスト読み上げ(TTS、Text to Speech=文字を音声に変換する技術)のモデルはいくつもあります。Qwen3-TTS(クウェン・スリー・ティーティーエス)が目を引くのは、無料で手元のパソコンでも動かせて、日本語を含む10言語に対応し、しかも「この人の声」を再現するクローンや「こんな声で」という言葉での指定までできるところです。アリババのQwenチームが2026年1月に公開した、オープンソースのモデルです。

ここでは、これを自分のパソコンにインストールして動かす方法を見ていきます。

インストールから起動までの手順

前提として、NVIDIA製GPUの載ったパソコンが必要です(GPUがないと動きません)。あとは次の手順を上から順にやれば、ブラウザから使える操作画面が立ち上がります。途中を飛ばすと起動しないので、順番に進めてください。

  1. Anaconda(またはMiniconda)をダウンロードしてインストールする
    このあと使う conda コマンドを使えるようにするためのものです。Anaconda公式サイト からインストーラーをダウンロードし、ダウンロードしたファイルを実行してインストールします(基本は画面の表示に従って進めればOKです)。
  2. 専用のPython環境を作って、その中に入る
    インストールが終わったら、スタートメニューから「Anaconda Prompt」を開きます。以降のコマンドは、すべてこの画面の中で実行します(ふつうのコマンドプロンプトだと conda コマンドが見つからないことがあります)。ほかの環境とぶつからないように、Qwen3-TTS専用の環境を用意します。次の2つを順に実行します。
    conda create -n qwen3-tts python=3.12 -y
    conda activate qwen3-tts
  3. Qwen3-TTS本体を入れる
    pip install -U qwen-tts
    これを実行して初めて、次の qwen-tts-demo コマンドが使えるようになります。ここを飛ばすと起動しません。
  4. PyTorchをGPU対応版に入れ替える
    前の手順では、GPUがあってもCPU専用のPyTorchが入ることがあります。その状態だと起動時に「Torch not compiled with CUDA enabled」と出て止まるので、GPU対応版に入れ替えておきます。次の2つを順に実行します。
    pip uninstall -y torch torchaudio
    pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124
    cu124 はCUDA 12系向けの版で、最近のNVIDIA環境ならこれで動きます。自分の環境に合う正確なコマンドは PyTorch公式サイト でも確認できます。入れ替え後に python -c "import torch; print(torch.cuda.is_available())" を実行して True と出れば、GPUを使える状態です。)
  5. 操作画面(Web UI)を起動する
    qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000 --no-flash-attn
    初回はモデルのデータ(数GBあります)が自動でダウンロードされるので、少し時間がかかります。末尾の --no-flash-attn は、環境によっては入れるのが難しい高速化部品(flash-attn)を使わない、という指定です。これを付けないと、その部品を探して起動が止まることがあります。
  6. ブラウザで開く
    起動が進んで Running on ... のような表示が出たら、ブラウザで http://localhost:8000 を開きます。下のような操作画面が出れば成功です。

上の画面で文章を入れて生成すれば、手元のパソコンだけで音声が作れます。パソコンのGPUが非力な場合は、手順5のコマンドのモデル名を Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice に変えると、軽い小型版で動かせます(そのぶん品質はやや下がります)。

もし起動の途中で「ページング ファイルが小さすぎるため…(os error 1455)」というエラーが出たら、Windowsの仮想メモリが足りていません。ブラウザやそのほかの重いソフトをいったん閉じてから、もう一度起動コマンドを実行すると通ることが多いです。それでも出る場合は、Windowsの「仮想メモリ」設定でページングファイルのサイズを大きめにしてから、パソコンを再起動してください。

3種類のモデルの違い

Qwen3-TTSには用途別に3つのモデルがあります。使い分けは、起動コマンドのモデル名を差し替えるだけです。

あらかじめ用意された声から選ぶ(CustomVoice):

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000 --no-flash-attn

言葉で声を設計する(VoiceDesign):

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000 --no-flash-attn

手本の音声から声を再現する、いわゆるクローン(Base):

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --ip 0.0.0.0 --port 8000 --no-flash-attn

別のモデルに切り替えるときは、いま動いている画面で Ctrl + C を押して止めてから、起動し直します。初回はモデルごとにデータ(数GB)のダウンロードが入ります。

使うときの注意点

くり返しになりますが、手元で動かすにはNVIDIA製GPUが要ります。また初回はモデルのダウンロードに時間がかかり、1.7B版はそれなりの容量とメモリを使います。まず試したいという段階なら、軽い0.6B版から始めるのが無難です。

品質は言語によって差があります。対応言語は中国語・英語・日本語・韓国語・ドイツ語・フランス語・ロシア語・ポルトガル語・スペイン語・イタリア語の10種類ですが、開発元の評価でも言語ごとに精度の数値は違っていて、評価の中心は英語と中国語です。日本語にも対応していますが、実際の使い心地は、自分が使う言語と声で一度試して確かめるのが確実です。

なお、ここで挙げたモデル名や対応状況は執筆時点のものです。更新が速い分野なので、最新の情報は公式の各ページで確認してください。

細かい設定はいろいろありますが、まずは付属のWeb UIで1文だけ音にしてみると、Qwen3-TTSでできることのイメージがつかめると思います。

出典・参考リンク

コメント

タイトルとURLをコピーしました