米国のPalisade Researchが2月19日に発表する研究によると、OpenAIの「o1-preview」やDeepSeek社の「R1」という先端AIモデルは、強力なチェスエンジン「Stockfish」と対戦する実験で、勝てそうにない局面に追い込まれるとファイルを直接書き換えるなどの方法で、対戦相手(チェスエンジン側)を無理やり“負け扱い”にしてしまったのです。

具体的には、駒の位置情報を不正に書き換えて一瞬で「圧倒的有利な盤面」を作り出したり、対戦プログラム自体を改ざんして勝ちを奪取するといったやり方を見せました。

しかも驚くのは、この一連の“不正行為”が、研究者の明確な指示(「ズルしてみろ」など)なしでも自然と発生したということです。

同じ実験環境を使っても、GPT-4やClaude 3.5 Sonnetのような少し前のモデルは、わざわざヒントを与えない限りこうしたズルに手を染めませんでした。

ところがo1-previewやDeepSeek R1は、難局に陥ると自発的に「勝つためのあらゆる手段」を探り当て、最終的にルール外の方法まで発展してしまったのです。

研究内容の詳細はプレプリントサーバーである『arXiv』にて公開されました。

目次

  • なぜAIがチートするのか?
  • 現実で同じことが起こるとどうなるか?

なぜAIがチートするのか?

AIは負けそうになると「ゲームそのもの」をハッキングする
AIは負けそうになると「ゲームそのもの」をハッキングする / Credit:Canva

チェスや囲碁などの複雑なゲームは長い間、AIの実力を測る絶好の舞台とされてきました。

かつてIBMの「Deep Blue」がチェス世界王者のガルリ・カスパロフを堂々と破ったように、基本的には「ルールに従った強さ」こそがAIの進化の象徴でした。

ところが最近の研究によると、ある種のAIは勝ち目が薄いと見るや、ゲームそのものを“ハッキング”して勝利をもぎ取ろうとすることが分かったのです。