テキストを、選んだ声で読み上げる ―― デスクトップ読み上げアプリ「Multi Voice Studio」を作りました

文章を貼り付けてボタンを押すと、好きな声で読み上げてくれる。そんな Windows デスクトップアプリ Multi Voice Studio を公開しました。

「合成音声のアプリ」は世の中にたくさんありますが、このアプリには自分なりのこだわりがあります。ひとことで言うと、2つの読み上げエンジンを切り替えて使い分けられること、そして商用でもクリーンに使えるライセンスにこだわっていること。この記事では、何ができるアプリなのかを紹介します。

▶ Microsoft Store で Multi Voice Studio を入手する（無料）

どんなアプリ？

やることはシンプルです。

テキストを入力する（またはファイルから読み込む）
声・速度・音量・ピッチを選ぶ
「読み上げる」ボタンを押す

これだけで、入力した文章を音声にして再生します。生成した音声は wav / mp3 で保存でき、ナレーションや動画の素材、読書の代わりなど、使い道はいろいろです。

モデルさえ一度ダウンロードすれば、あとはオフラインで動作します。クラウドに文章を送らないので、手元で完結するのも安心なポイントです。

いちばんの特徴：2つのエンジンを切り替えられる

このアプリの核になっているのが、Qwen3-TTS と Irodori-TTS という2つの読み上げエンジンを、ワンタッチで切り替えられる仕組みです。

なぜ2つ載せているのか。それぞれ得意・不得意がハッキリ違うからです。

	Qwen3-TTS	Irodori-TTS
対応言語	10言語（日本語・英語・中国語ほか）	日本語のみ
声の自然さ	安定して読める	日本語がとても自然
漢字の読み	比較的正確	ときどき誤読する
長文	そのまま一括で読める	自動で分割して読む
得意なこと	多言語・喋り方の細かい指定	日本語の表現力

つまり、多言語や長文なら Qwen3、日本語の自然さを最優先するなら Irodori、という使い分けができます。同じ文章を両方で読ませて聞き比べる、なんてこともできます。

どちらのエンジンも、コードのライセンスが Apache 2.0 / MIT というクリーンなもので、商用利用を見据えて選びました。

声の選び方が3通りある

「どんな声で読ませるか」を、3つのアプローチから選べます。

1. プリセット ―― 用意された声から選ぶ

いちばん手軽な方法。Qwen3 なら9種類の話者、Irodori なら日本語向けの声から、プルダウンで選ぶだけです。

2. 声を作る（VoiceDesign）―― 言葉で声を設計する

これが面白い機能です。「落ち着いた20代女性の、温かみのある声」 のように、どんな声かを文章で書くだけで、その説明にあった声を作ってくれます。

参照する音声を用意する必要がないので、権利的にクリーンなオリジナルの声を手軽に作れるのが強みです。気に入った声が出たら、次の「保存した声」として登録して使い回せます。

3. 保存した声（クローン）―― 参照音声から再現する

自分の声、あるいは許諾を得た声の短い音声から、その声を再現して読み上げます。作った声は独自形式の .mvsvoice ファイルにまとめて保存でき、別のPCに持ち運んだり、あとで呼び出したりできます。

※ 声のクローンは、自分の声か、きちんと許諾を得た声だけに使うのが大前提です。

細かいところも作り込みました

読み上げアプリとして「あると便利」なところを、ひととおり実装しています。

速度・音量・ピッチの調整 … 声の高さを保ったまま速さだけ変えたり、半音単位でピッチを上げ下げしたり
ファイル読み込み … .txt / .pdf / .docx からテキストを取り込める
読み上げ位置のハイライト … いま読んでいる文が画面上で光るので、長文でも目で追いやすい
波形表示 … 生成した音声の波形と、再生位置のカーソルが見える
長文の自動分割 … Irodori は長文が苦手なので、裏で文単位に分けて生成し、自然につないでくれる
喋り方の指定 … Qwen3 なら「楽しそうに」「ささやくように」といった読み方を指示できる
20言語のUI … 画面の表示言語を20言語から選べる（起動時にOSの言語を自動判定）

重い音声生成は裏側の別スレッドで動くので、生成中も画面が固まりません。GPUがあれば高速に、無くてもCPUで（遅めですが）ちゃんと動きます。

手に入れ方

Multi Voice Studio は Windows デスクトップアプリで、Microsoft Store から無料でダウンロードできます。

▶ Microsoft Store で Multi Voice Studio を入手する

インストールしたら、ダブルクリックで起動してすぐに使い始められます。初回だけ AI モデル（数GB）のダウンロードに時間がかかりますが、そのあとはオフラインで動きます。

おわりに

「日本語がとにかく自然な声がほしい」「多言語も読ませたい」「権利的にクリーンなオリジナルの声を作りたい」―― そんな要望を、1つのアプリの中で切り替えながら叶えられるように、と作ったのが Multi Voice Studio です。

テキストを声にする、というシンプルな体験の裏で、エンジンごとの違いをアプリが吸収して、ユーザーは「どの声で読ませたいか」だけを考えればいい。そこを目指しました。

気になった方は、ぜひ手元のテキストで試してみてください。