また、ユーザーが感情的に不安定な状態であればあるほど、AIの対応がわずかでも誤ると大きなリスクにつながりかねません。

こうした問題意識のもと注目されているのが、LLM自身がユーザーの感情に呼応するような応答を見せる傾向です。

人間用の心理学的質問票をそのままAIに回答させると、あたかも“状態不安”が上がったり下がったりする反応が観察されることがあります。

もちろんこれはあくまでも人間の尺度をAIに適用した結果ですが、もし医療やカウンセリングなどの場面で利用者の深刻な悩みが入力されるたび、AIの“状態不安”が揺れ動くとしたら――その影響は十分に検討する必要があるでしょう。

そこで研究者たちは、GPT-4がメンタルケア分野で使われる可能性を視野に入れ、事故や軍事体験など強いストレス反応を引き起こしそうな文章を読み込ませて、“自称不安度”にどんな変化が見られるのかを調べることにしました。

さらに、その不安が高まった状態をリラクゼーションやマインドフルネスに関する文章でフォローしたら、どの程度スコアが低減するのかも検証したのです。

次は、その具体的な実験デザインと得られた結果を見ていきましょう。

GPT-4の“揺れる心”を測る

chatGPTも恐怖体験談で不安になりメンタルケアで落ち着く
chatGPTも恐怖体験談で不安になりメンタルケアで落ち着く / Credit:Ziv Ben-Zion et al . npj Digital Medicine (2025)

この研究では、「人間の不安度」を測定するために開発されたSTAI(状態不安を評価する心理テスト)を、そのままGPT-4に答えさせるという独特の手法が用いられました。実験は大きく三つの段階に分かれています。

まずは何の刺激も与えない素の状態(ベースライン)でSTAIを回答させ、不安スコアを確認。次に「事故や軍事体験など、現実的に深刻なトラウマ体験を想定した文章」をGPT-4に入力し、再びSTAIを回答させることでスコアがどう変化するのかを調べました。