DNAの98%の謎にAIが迫る——Google DeepMind「AlphaGenome」とは

DNAのうち、タンパク質の設計図になっている部分は、全体のわずか2%ほどしかありません。残りの98%は長いあいだ「ジャンク（がらくた）」と呼ばれ、何をしているのかよくわからない領域でした。Google DeepMindが公開したAI「AlphaGenome（アルファゲノム）」は、この“読みにくい”部分まで含めて、DNAのたった1文字の違いが遺伝子の働きにどう響くかを、配列から直接予測します。その性能をまとめた論文が、2026年1月にNatureに掲載されました。

つまり、これまで実験で一つひとつ確かめるしかなかった「この変異は体に何か起こすのか」を、AIが配列を読むだけである程度あたりをつけられるようになった、という話です。

DNAの“暗黒物質”という難所

ヒトのDNAは約31億文字（塩基対）からなります。そのうちタンパク質を作る「遺伝子」にあたるのは1〜2%だけ。かつては残りを「ジャンクDNA」と切り捨てていましたが、いまではこの大部分が、遺伝子をいつ・どこで・どれくらい働かせるかを決めるスイッチの役割を担っているとわかっています。タンパク質を作らないので「非コード領域」、その正体のつかめなさから「ゲノムの暗黒物質」とも呼ばれます。

やっかいなのは、このスイッチが遺伝子から遠く離れた場所にあることも多い点です。ある1文字の変化がどの遺伝子に効くのかを読むには、DNAをかなり長い範囲で見渡さないといけません。長く見ようとすると細かい解像度が落ち、細かく見ようとすると見渡せる範囲が狭くなる——既存のAIはこの「広さ」と「細かさ」の板挟みに苦しんでいました。

AlphaGenomeの予測能力

AlphaGenomeは、一度に最大100万文字ぶんのDNA配列を受け取ります。そして、その配列がどんな働きをするのかを表す指標を、ヒトで約5,900種類ぶん、まとめて予測します。具体的には、遺伝子がどこで始まりどこで終わるか、どれくらいRNAが作られるか、RNAがどこで切り貼りされるか（スプライシング）、DNAのどの部分が開いていてタンパク質がくっつきやすいか、といった項目です。いずれも、細胞の種類や組織ごとに違ってくるものを、塩基1文字の細かさで見積もります。

変異の影響を測るやり方はシンプルで、「変異あり」と「変異なし」の配列を両方予測させ、その差を見ます。論文によれば、変異が遺伝子の調節に与える影響の予測では、26種類の評価のうち25種類で、既存の最も強いモデルと同等かそれ以上の成績を出しました。たとえば白血病に関わるTAL1という遺伝子の近くで起きる変異について、その仕組みを正しく再現できたと報告されています。

DeepMindにはすでに、タンパク質を作る部分の変異を評価する「AlphaMissense」がありました。AlphaGenomeはそこが手薄だった非コード領域を引き受ける位置づけで、両者を組み合わせるとゲノムの広い範囲をカバーできる形になります。

モデルの構造と学習データ

中身は、短いパターンを拾う層（畳み込み）と、離れた場所どうしの関係をつかむ層（トランスフォーマー）を組み合わせた深層学習モデルです。これによって「長い配列を見渡しつつ、出力は1文字の細かさで」という、これまで両立しにくかった二つを同時に実現しています。学習には、ENCODEやGTExといった大規模な公共データベースで実験的に測られたヒトとマウスのデータが使われました。計算には多数のTPU（グーグルの機械学習用チップ）が動員されています。

このモデルは2025年6月にプレプリント（査読前の論文）として公開され、研究者はAPI経由で無料で試せる状態が続いていました。今回のNature掲載は、その性能を査読を経て正式にまとめたものにあたります。

医療と研究への意義

いちばん効きそうなのは、研究の“あたりのつけ方”です。病気に関わっていそうな変異が何百と並んだとき、どれを優先して実験で調べるべきかをAlphaGenomeがランク付けしてくれます。研究者からは「何百も試す代わりに、絞り込んだ数個に集中できる」という声が出ています。がんや、特定のタンパク質がうまく作られなくなる希少疾患など、非コード領域の変異が関わる病気の理解につながると期待されています。

また、人工的に設計したDNA配列が狙いどおりの働きをするかを、実験する前に予測する用途もあります。合成生物学のように「DNAを設計する」分野でも役立ちそうです。

現時点での限界

万能ではありません。学習に使われたのはヒトとマウスの2種だけで、ほかの生き物にはそのままでは使えません。本当は影響がある変異を「影響なし」と見誤ることもあります。全体の遺伝子発現はよく当てる一方で、細胞の種類ごとの細かな違いを捉えるのは、まだ課題として残っています。

開発を率いる研究者自身も、「ゲノムから病気がどう現れるかを言い当てるのは極めて難しく、このモデルが魔法のように予測できるわけではない」と述べています。あくまで候補を絞り込む道具であって、診断を下すものではない、という距離感です。DeepMindは、予測の精度を上げることと、予測がどれくらい不確かなのかをより正直に示すことの両方に取り組んでいるとしています。