AIが完成すると研究者たちは、実際にインターネット上で公開されている15,191の雑誌を調べてもらいました。
ここで重要となったのは2つの指標です。
1つ目の指標が「適中率(precision)」で、これはAIが「あやしい」と判断した雑誌の中で実際に本当に怪しかった割合で、高ければ高いほど優秀となります。
もう1つが「再現率(recall)」で、これはAIが本当に存在する「あやしい雑誌」全体のうち、どのくらい見逃さずに発見できたかを表し、こちらも高いほど優秀(見逃しが少ない)です。
しきい値(どのくらい厳しく判定するかの基準、あやしさへの敏感さとも言える)をちょうど中間の50%に設定した場合、AIは15,191誌のうち1,437誌を「あやしい」と判定しました。
その後、人間によってチェックを行ったところ、AIの適中率は約76%であることが判明しました。
これは「AIがあやしいと指摘した雑誌のうち、およそ4分の3にあたり1000誌以上が実際に怪しい可能性が高い」ということを示しています。
一方で再現率は約38%で、これは「実際にあやしい雑誌の4割弱をみつけられたものの、約6割を見逃している」ということを示しています。
ここで「じゃあ、もっと厳しくしたらいいのでは?」と思うかもしれませんが、そう単純ではありませんでした。
判定をゆるくして広く拾う設定にすると、無害な雑誌まで間違って疑われる確率(誤判定)が増えてしまい、チェックする人間の負担が大きくなってしまいます。
逆にしきい値を高くして本当に怪しいものだけを報告するように設定すると、報告数が減って人間の負担も減り、高精度であやしい雑誌を指定してきますが、問題のある雑誌をたくさん見逃してしまうことがわかりました。
このような、適中率と再現率の関係を「トレードオフ」(どちらかを良くするともう一方が悪くなる関係)と呼びます。
そのため研究者たちは目的にあわせて厳しさを変更する方法を提案しています。
