「存在しない論文」を引用するAI——トップ学会をすり抜けた100件

「実在しない論文を引用している」——そんな指摘が、世界でもっとも格が高いとされるAIの学会に通った論文から、いくつも見つかりました。引用先として書かれている著者も、論文のタイトルも、リンク先も、たどっていくとどこにも存在しない。しかも見つかったのは、AIを研究している当の専門家たちの論文でした。AIが作り出した“もっともらしい嘘”が、AIに最も詳しい人たちの目をすり抜けていた、という話です。

「引用」と「査読」という前提

本題の前に、言葉を少しだけ整理しておきます。学会で発表する論文は、ふつう公開される前に、その分野の専門家が中身をチェックします。これを査読（さどく）と呼びます。問題がないか複数人で確かめてから採択する仕組みで、論文の信頼性を支える土台です。

論文には必ず「引用」が並びます。「この主張は◯◯さんの研究にもとづいている」と、参考にした文献を示すものです。引用は単なる注釈ではなく、研究者にとっては一種の通貨のような役割を持ちます。どれだけ引用されたかが、その研究の影響力や評価、ときには予算や採用にもつながるためです。だからこそ、引用先が実在することは大前提になります。

今回のキーワードは「幻覚（ハルシネーション）」です。AIが、もっともらしいけれど事実ではない情報を、さも本当のように作り出してしまう現象を指します。引用の幻覚とは、つまり「それらしい見た目だけれど、実際には存在しない文献」をAIがでっち上げてしまうことです。

調査で見つかったもの

調べたのは、AIで書かれた文章の検出ツールを手がける企業GPTZeroです。対象は、2025年11月にアメリカ・サンディエゴで開かれたNeurIPS（ニューリプス）2025の採択論文でした。NeurIPSはAI分野でもっとも権威ある学会のひとつで、ここに論文が通ること自体が研究者の経歴になるほどの場です。

同社は、採択された5,290本のうち4,841本を自社のツールで解析しました。その結果、51本の論文に、合わせて約100件の存在しない引用が見つかったといいます（報道によっては53本とするものもあります）。採択論文全体の約1%にあたります。各論文は3人以上の査読者が目を通しており、しかも査読者は「幻覚がないか確認するように」と指示されていました。採択率は約24.5%、1万5千本を超える他の投稿を退けて通った論文に、それが混じっていたことになります。

見つかった引用の中身はさまざまでした。著者・タイトル・学会名がまるごと架空で、DOIやURLをたどってもどこにも行き着かないもの。実在する複数の論文を混ぜ合わせて、それらしいタイトルと著者名を作り出したもの。なかには、著者名が仮置きの「John Doe / Jane Smith」のまま、arXiv番号が「2305.XXXX」と数字が埋まらないまま、「URLは後で更新」と書かれたまま、というあからさまな取りこぼしもあったと報告されています。つまり、AIに引用を作らせ、その真偽を確かめないまま提出し、査読でも止まらなかった——というのが、起きていたことでした。

判定の手順

幻覚の見分け方は、意外と地道です。ツールはまず、Web検索や学術データベース（Google Scholar、PubMed、arXiv、CrossRefなど）、それにDOIやURLが本当に有効かどうかを照合し、「確かめられない引用」を洗い出します。そのうえで、引っかかったものを人の専門家が一件ずつ確認し、本当に存在しない文献かどうかを判断したとしています。GPTZeroは、この引用チェックの精度を99%超と説明しています。今回の調査の少し前には、別の有力学会ICLRに投稿された論文からも50件を超える幻覚引用を見つけており、これは一つの学会だけの問題ではない、というのが同社の見立てです。

すり抜けた背景

なぜ専門家の査読をすり抜けたのか。大きな要因として挙げられているのが、投稿数の激増です。NeurIPSへの投稿は2020年から2025年のあいだに、9,467本から21,575本へと3倍以上（220%超）に増えました。投稿が増えれば、それを見る査読者も足りなくなり、一人が大量の論文を短期間で評価することになります。数十件もの引用が並ぶ論文が何千本もあるなかから、数件の偽物を見抜くのは現実的に難しい——この点はGPTZero自身も認めていて、査読者個人を責められる話ではないとしています。

加えて、査読そのものにもAIが使われ始めている、という指摘もあります。書く側だけでなく確認する側もAIに頼るようになると、「AIが作ったものを、AIがチェックする」という構図になりかねません。今回の件は、その危うさをわかりやすく示した例ともいえます。

日常のAI利用への示唆

この話は、研究者だけの内輪の問題では終わりません。AIに最も詳しい人たちの査読をすり抜けたのなら、ふだんAIを使う私たちは、もっと用心しておいたほうがよい、ということだからです。

AIに調べ物や文章作成を頼むと、出典や参考文献を“それらしく”作り出すことがあります。本当にありそうな著者名、ありそうなタイトル、ありそうなURL——見た目だけでは本物と区別がつきません。だから、AIが出してきた参考文献・リンク・数字は、そのまま信じずに元をたどって確かめる。これは特別なテクニックではなく、AIとつき合ううえでの基本動作だと考えておくと安全です。

結果の受け止め方

一方で、過度に深刻に捉えすぎないための前提もいくつかあります。

まず規模感です。約100件・51本という数字は、数万件にのぼる引用全体から見ればごくわずかで、割合としてはほぼ誤差の範囲ともいえます。次に、引用が一部おかしいからといって、論文の中身そのものが無効になるわけではない、という点です。NeurIPS側は取材に対し、たとえば著者が引用の概略をAIに渡して書式だけ整えさせたようなケースもあり得ると説明し、1%程度に不正確な引用があったとしても研究内容がただちに否定されるわけではない、との見方を示しています。2025年からは査読者に幻覚を報告するよう求めており、運用を改善していくとしています。なお、幻覚引用は本来、不採択や撤回の対象になり得るものです。

立場の確認も必要です。今回の調査は、AI検出ツールを販売しているGPTZeroによるもので、同社は引用チェック製品の宣伝も兼ねています。数字の意味は、そうした背景も踏まえて読むのが公平でしょう。また、今回調べられたのはあくまで「引用」だけで、論文の本文に事実の誤りが紛れていないかどうかは、別の問題として残されています。この発見は学術誌に査読された研究ではなく、企業による調査とそれを伝える報道がもとになっている、という点も押さえておきたいところです。

それでも、引用がでっち上げられること自体は小さな話ではありません。引用が研究者にとっての通貨である以上、偽物が混じればその価値は静かに目減りしていきます。便利さと引き換えに確認を省くと、知識が積み上がっていく土台そのものが揺らぐ——今回の件は、それを最前線の現場が身をもって示した出来事だといえそうです。