AIがブラックボックスにならず、「なぜそう分類したか」を示せる点は、人文学の研究手法としても重要です。
もちろん、古代の文書を分析する上で課題もありました。
テキストの中にはごく短い断片しか残っていない場合が多いため、通常の機械学習では十分な学習データを確保できません。
研究チームはそこで大量の訓練データを必要としないカスタムAIモデルを開発しました。
具体的には各章の文の構造や単語(語根)の出現頻度を直接比較する、シンプルで直接的な統計手法を採用したのです。
このアプローチにより、数節程度の短い章であっても信頼性のある分類が可能になりました。
事実、最も短いテキストでは約10節程度しかありませんでしたが、それでも約80%の正解率で正しいグループに割り当てられたと報告されています。
次は日本書記か?AI×人文学が切り開く著者の正体
今回の研究によって、聖書の著者に関する長年の議論に客観的な証拠がもたらされました。
申命記系の文書と祭司文書の違いが定量的に示されたことは、従来の聖書学の知見をデータで裏付ける成果です。
また、『サムエル記』における聖櫃物語の分析結果は、テキストの成り立ちに関する新たな洞察を提供しました。
機械が示した結論は、人間の解釈だけでは得られなかった視点を加えうることを示しています。
研究者らは「本手法の主目的は、不明瞭だった執筆者集団ごとの言語・文化的特徴を再構築することにある」と強調しています。
聖書は数世紀にわたり様々な時代・場所で書き継がれてきたため、グループごとの特徴が明らかになれば聖書テキストの成立過程をより深く理解できるでしょう。
さらに今回開発された手法は、聖書以外の古代文書にも応用可能です。
例えば歴史上の人物が残した文書の真贋判定にも役立つかもしれません。
この技術を使えば日本の古い文献の分析についても、AIの目を利用できるようになるかもしれません。