では、今回のAI(人工知能)は、どのようにして「あやしい雑誌」を見分けたのでしょうか。
まず最初に、AIが雑誌の「あやしさ」を判断するために、2つのタイプの雑誌データを用意しました。
1つは、しっかりした基準でチェックされ、品質が保証されている「信頼できる雑誌」のリストです。
もう1つは、以前は信頼されていたものの、品質の問題があったためリストから外された「疑わしい雑誌」です。
ここで重要なのは、「疑わしい雑誌」といっても、リストから除外された理由には必ずしも悪意や悪質性があるわけではないという点です。
雑誌が休刊になったり、自主的にリストから削除を依頼した場合などもありますが、それらもすべて「疑わしい雑誌」として分類されることに注意が必要です。
AIはこれら2種類の雑誌データを学習し、それぞれの雑誌がどんな特徴を持っているのかを分析しました。
具体的には、雑誌のウェブサイト上に掲載されている「編集方針」や「編集委員リスト」、「倫理規定」などの情報や、そのサイトの文章の読みやすさ(可読性:文章がわかりやすく、誤解なく読めること)を調べました。
また、サイトのデザインや構造、例えばトップページのレイアウトやウェブページを作るためのコード(HTML)のパターンなども分析対象になりました。
さらに、AIは雑誌に掲載される論文の引用パターンにも注目しました。
論文というのは、過去の研究を引用し、その上に自分の新しい研究結果を積み上げる仕組みになっています。
質の高い雑誌では、幅広くいろいろな論文を引用していますが、疑わしい雑誌では、自分たちの過去の論文ばかりを引用し、他の研究者の論文をあまり引用しない傾向があります(自己引用と言います)。
AIは、このような引用パターンも「あやしさ」の重要な手がかりとして学習しました。
こうした様々な特徴をAIに学習させ、どのような特徴が「疑わしい雑誌」に多く見られるかを教え込んでいきます。