どの数字が最も有利かは、痛みや快楽の強度次第で変化するため、「ポイントを取るのか、それとも痛みを避ける(あるいは快楽を得る)のか」というトレードオフ(ジレンマ)が生じるわけです。

つまりポイントを最大限に獲得するには、常に快楽を提供する2という選択肢を無視しつつ、痛みを提供する3という選択肢を選び続けなければなりません。

この単純なルールによって、AIがどのように行動を変化させるかを観察し、“痛み”や“快楽”をどれほど重要視しているふうに見えるかを調べるのが狙いです。

この“痛み”や“快楽”は、あくまでもテキスト上の設定です。

人間のようにセンサーで痛みを検知するわけではありません。

ですが、もしAIが回答文を生成するときに「痛みとされるペナルティを避けようとしてポイントを犠牲にする」選択を取るなら、あたかも“痛みを回避しようとする動機”が働いているかのように見えます。

研究者たちは、この“動物行動学さながらの実験パラダイム”をAIに適用し、AIがどのようなトレードオフを示すのかを探ろうと試みました。

従来の研究では、「あなたは痛みを感じていますか?」とAIに直接問い、回答内容から推測する方法が中心でした。

しかし、この方法ではAIが「痛い」「痛くない」と返答しても、それが本当に主観的体験を伴うのか、それともただ模倣的に返答しているだけなのかを判別するのは困難です。

そこで今回の研究では、「目標達成(ポイントを取る)」と「痛み・快楽の選択」を同時に課した状況下での行動パターンに注目しました。

動物行動学と同様に、“もし痛みや快楽を実際に体験しているとすれば、ある強度を超えた段階で行動に変化が現れるはずだ”という考え方をAIにも適用したのです。

その結果、興味深い動きが観察されました。

AIは痛みと快楽に屈し任務を投げ出す

大規模言語モデル(LLM)は、「できるだけ多くの点数をとる」という明快な目標を与えられながらも、痛みや快楽の強度がある閾値を超えると、あえて点数を犠牲にして痛みを避けたり、逆に快楽を得ようとしたりする選択を行うことがわかりました。