自分好みの声を作って読み上げる——日本語特化の音声合成AI「Irodori-TTS」

AI・テクノロジー
スポンサーリンク

テキストで「こんな声」と指定するだけで好みの声を作り、その声に好きな文章を読み上げてもらう。さらに、お手本の声をまねさせたり、絵文字で笑い声やため息を混ぜたり——そうしたことが、個人が無料で公開しているAIでできるようになっています。日本語の音声合成(テキストを読み上げる技術。TTS=Text-to-Speech)に特化した「Irodori-TTS(イロドリ)」です。

画像生成や、自分のパソコン上でAIを動かすのに慣れた人の間で知られはじめたモデルで、よく「Qwen3-TTS(読みはクウェン)」と比較されます。ここでは、Irodori-TTSが何者で何ができるのかを、その比較相手と並べながら見ていきます。

日本語に特化した個人開発モデル

Irodori-TTSは、Aratako(アラタコ)という個人開発者が公開している音声合成モデルです。「彩り(いろどり)」という名前のとおり、声に表情をつけることをねらったモデルで、扱えるのは日本語だけと割り切られています。

仕組みの面では、画像生成AIと同じ系統の作り方を採っています。具体的には Flow Matching(フローマッチング)という手法で、ノイズだらけの状態から少しずつ整えて目的の音声を作り出します。画像生成で絵がだんだん鮮明になっていくのと、考え方は同じです。この作り方は出力の細かな調整がしやすく、あとで触れる「声の複製」の再現度の高さにつながっています。

主な機能

Irodori-TTSの操作は、大きく三つの組み合わせでできています。

ひとつめは、声そのものを文章で指定する「ボイスデザイン」。たとえば「落ち着いた大人の男性が、フォーマルな場で丁寧に話す」「明るくハキハキした若い女性の声」のように欲しい声の特徴を言葉で書くと、それに合った声を作ってくれます。お手本になる音声を用意しなくても、説明文だけで声を生み出せるのが特徴です。

ふたつめは、「ボイスクローン(声の複製)」。まねしたい声を短く録音して渡すと、その声質で任意の文章を読み上げます。最新版では、複製した声に対して「今にも泣き出しそうに」「呆れた冷たいトーンで」といった演技の指定を、別途重ねることもできます。

三つめが、Irodoriならではの「絵文字による制御」。読み上げたい文章のなかに特定の絵文字を入れておくと、笑い・咳・ため息といった声の表情や効果音まで反映されます。同じ文章でも、添える絵文字や説明文を変えるだけで雰囲気が変わります。

Qwen3-TTSとの違い

比較対象としてよく挙がるのが、アリババのQwenチームが2026年1月に公開した「Qwen3-TTS」です。こちらは日本語を含む10言語に対応した多言語モデルで、3秒ほどの音声からボイスクローンができ、声を文章で指定するボイスデザインも備えています。設計上の大きな違いは、しゃべり出しながら続きを生成していく「ストリーミング」を前提にしている点で、対話アシスタントのようにリアルタイムで応答する用途を見据えています。

ざっくり整理すると、多言語やリアルタイム性が要るならQwen3-TTS、日本語の自然な抑揚や間(ま)を重視するならIrodori、という関係になります。日本語に絞っているぶん、Irodoriの読み上げのほうが「日本語らしい」イントネーションになりやすい、という評もあります。なお、IrodoriはQwen3系のモデルを学習データの下ごしらえ(音声へのラベル付け)に使っており、両者は競合でありながら技術的な縁もあります。

現時点での制約

Irodori-TTSには、いくつかの割り切りや弱点もあります。

まず、対応するのは日本語のみで、多言語は扱えません。難しい漢字の読み上げは同じくらいの規模のモデルと比べて苦手とされ、込み入った漢字はあらかじめひらがなやカタカナに直しておくと安定します。また、Qwen3-TTSのようなストリーミング生成には対応しておらず、文章を渡してから音声ができあがるまで待つ形になります。

声の複製についても、世間で心配されるほど万能ではありません。お手本の音声にノイズ(雑音)が入っていると再現度が大きく落ち、出力されるのは声に集中した音で、背景の物音までは再現されません。お手本の声と説明文で食い違う指示(低い男性の声を渡しながら「高い少女の声」と書く、など)を与えると、音が不安定になることもあります。

ライセンスと電子透かし

公開ライセンスはMITで、商用利用や改変のしやすい、制約の少ない部類です。そのうえで開発者は、悪用を避けるための利用ルールを別途示しています。本人の同意なく実在の人物(声優・著名人など)の声を複製しないこと、なりすましや誤情報のための生成をしないこと、などです。

最新版では、生成した音声に、人の耳には聞こえない電子透かし(生成物だと後から判別するための目印。SilentCipherという仕組みを使用)を埋め込むようになっており、責任ある使い方を促す工夫が組み込まれています。

試すための入り口

手元で本格的に動かすにはGPU(画像や音声の処理を高速にこなす演算装置)が要りますが、まず試すだけなら、配布元のHugging Face上に用意されたデモ(ブラウザ上で動かせる試用ページ)から触れます。声を文章で指定して生成する様子や、絵文字で表情が変わる様子を、その場で確かめられます。

更新が速く、モデルの版(バージョン)もたびたび増えています。実際に使うときは、配布ページで最新版と対応している機能を確認してから触るのがおすすめです。

出典

コメント

タイトルとURLをコピーしました