AIが完成すると研究者たちは、実際にインターネット上で公開されている15,191の雑誌を調べてもらいました。

ここで重要となったのは2つの指標です。

1つ目の指標が「適中率(precision)」で、これはAIが「あやしい」と判断した雑誌の中で実際に本当に怪しかった割合で、高ければ高いほど優秀となります。

もう1つが「再現率(recall)」で、これはAIが本当に存在する「あやしい雑誌」全体のうち、どのくらい見逃さずに発見できたかを表し、こちらも高いほど優秀(見逃しが少ない)です。

しきい値(どのくらい厳しく判定するかの基準、あやしさへの敏感さとも言える)をちょうど中間の50%に設定した場合、AIは15,191誌のうち1,437誌を「あやしい」と判定しました。

その後、人間によってチェックを行ったところ、AIの適中率は約76%であることが判明しました。

これは「AIがあやしいと指摘した雑誌のうち、およそ4分の3にあたり1000誌以上が実際に怪しい可能性が高い」ということを示しています。

一方で再現率は約38%で、これは「実際にあやしい雑誌の4割弱をみつけられたものの、約6割を見逃している」ということを示しています。

ここで「じゃあ、もっと厳しくしたらいいのでは?」と思うかもしれませんが、そう単純ではありませんでした。

判定をゆるくして広く拾う設定にすると、無害な雑誌まで間違って疑われる確率(誤判定)が増えてしまい、チェックする人間の負担が大きくなってしまいます。

逆にしきい値を高くして本当に怪しいものだけを報告するように設定すると、報告数が減って人間の負担も減り、高精度であやしい雑誌を指定してきますが、問題のある雑誌をたくさん見逃してしまうことがわかりました。

このような、適中率と再現率の関係を「トレードオフ」(どちらかを良くするともう一方が悪くなる関係)と呼びます。

そのため研究者たちは目的にあわせて厳しさを変更する方法を提案しています。

AIが「疑わしい」と判定した学術雑誌の実態
AIが「疑わしい」と判定した学術雑誌の実態 / まず左上(A)は、AIが「疑わしい」と判定した雑誌群(1,437誌)が、毎年どのくらいの論文を発表しているかを示す折れ線グラフです。2000年ごろから始まり、年を追うごとに発行論文数が増えていき、2019~2020年に一度減少していますが、それ以降もかなりの数が出続けていることが分かります。ここで注目すべきは、「怪しい雑誌」と呼ばれていても、実際に発表されている論文の数が無視できない規模だという点です。 次に右上(B)は、それらの“疑わしい雑誌”に掲載された論文が、他の論文からどれくらい引用されているかの合計を年ごとに表しています。こちらも年々増加しており、“あやしい雑誌”の論文が他の研究論文にも影響を与えていることがうかがえます。つまり、質の低い雑誌の論文であっても、科学のネットワークの中で無視できない存在感を持っているということです。 左下(C)は、アメリカの主要な研究資金提供団体(NIH=アメリカ国立衛生研究所など)の助成金で行われた研究が、どれだけ“疑わしい雑誌”で発表されているかを割合で示した棒グラフです。いずれの団体でも、0.1%前後の論文がこうした雑誌で報告されていることが示されています。つまり、「本物の研究費」から生まれた研究も一部が“怪しい雑誌”に流れてしまっていることを意味します。 そして右下(D)は、国ごとに“疑わしい雑誌”で発表された論文の割合を地図や棒グラフで示しています。インドやイラン、中国、ブラジル、ロシアなどの新興国でその割合が高いことが分かり、逆にアメリカやヨーロッパなどでは低い傾向にあります。これは、研究費や指導体制が手厚くない国で“怪しい雑誌”が広がりやすいという、論文本文での考察を裏付けるデータになっています。Credit:Han Zhuang et al . Science Advances 2025