(1)事実性評価の欠如によるハルシネーションリスクの指摘

 同レポートでは、モデル性能の急速な向上に対し、事実性や真実性を評価する標準的な手法がまだ十分に確立・普及していないことが強調されています。特に、生成AIの出力の事実誤り(いわゆるハルシネーション)を検出・防止するためのベンチマーク(例えばTruthfulQAなど)が広く活用されていない現状が示されており、社内ナレッジにRAGを導入する企業にとっては注意が必要だと指摘されています。この部分から、現在どのような評価ギャップがハルシネーションリスクを高めているかが理解でき、対策立案の重要性が認識できるでしょう。

 私がここ半年ほどのRAG開発活動を通じて注目している対策案としては、GoogleのDataGemmaとRAGを併用してData Commonsという巨大な公開統計情報源に照らしてファクトチェックするRIG(Retrieval-Interleaved Generation)という手法を用いること、また、中国のDeepSeekが政府の統計データを基にファクトチェックと修正を行うDeepRAGという手法があります。