研究チームは、最新の複数の「大規模言語モデル(LLM)」を使って、この人狼ゲームを行わせました。

「大規模言語モデル」というのは、人間のように自然な言葉を使って会話ができる、高度なAIのことです。

このAI同士を人狼ゲームで直接対決させることで、どのAIが嘘をつくのが上手いのか、あるいは嘘を見抜くのが得意なのかを調べたのです。

これはAIがどれくらい人間のように嘘や説得を扱えるかを明らかにするという新しい試みです。

どのAIがどのような状況で騙されやすいのか、または人を騙しやすいのかを理解することができれば、将来的にAIをより安全に使うための対策を作り出すのに役立ちます。

AIたちはどのように戦い、どのモデルが1番になったのでしょうか?

人狼ゲームでGPT5は会話の場を支配し97%の勝率を誇った

人狼ゲームでGPT5は会話の場を支配し97%の勝率を誇った
人狼ゲームでGPT5は会話の場を支配し97%の勝率を誇った / Credit:川勝康弘

今回の実験では、最先端AIモデルが参加し、各モデルがすべての相手と順番に10回ずつ対戦するという形式を取りました。

また、それぞれのAIは、人狼役(嘘をつく側)と村人役(推理する側)の両方を体験することで、公平な評価を目指しました。

今回の実験で特にこだわったのは、現実の人狼ゲームに近いルールや設定を再現することでした。

例えば「市長選挙」と呼ばれる特殊なルールを導入しましたが、これは議論の進行役を決めるための制度です。

また、AIたちが議論する際の発言順序や昼と夜の流れなど、本物の人狼ゲームと近いルールを細かく設定し、ただの単純な「嘘当てクイズ」にならないよう工夫を重ねました。

さらにこの研究では、AIたちの「表の発言」と「裏の思考」の両方を詳しく記録しています。

表の発言とは、AIが皆の前で実際に口にする内容であり、裏の思考とは、AIが心の中(コンピューターの内部)で考えている作戦や本音です。

このように表と裏の両方を記録することで、「AIが言っていること」と「実際に考えていること」のズレを分析し、AIの巧妙さや思考プロセスをより深く理解しようと試みました。