視覚的な推論能力は僅かに改善した
最後に研究者たちは、視覚的な推論能力の変化を調べました。
このテストでは、GPTに対して複数の図形が提示され、一致している図形を選ぶことが求められます。
結果、上の図のように、GPT4とGPT3.5の両方において3月に比べて6月ではわずかな性能向上がみられました。
ただGPT4においては、3月の時点で解けたパズル問題が6月になるとできなくなっているケースもみられました。
(※GPT3.5は3月でも6月でもできませんでした)
このパズルは3つの例を参考に4つ目の「?」のパターンを推測するものであり、人間にとっては簡単なものです。
視覚的な推論能力は全体的に上がっているにもかかわらず、一部の問題の解決能力が失われているというのは、非常に興味深い現象と言えるでしょう。
そのため研究者たちはGPTのような高度なAIについては、バージョンアップで起こる変化を細かく監視していく必要があると述べています。
以前のバージョンを使う方法が残されている
今回の研究により、GPTはバージョンアップにともない、同じ内容の入力でも大幅に異なる出力が現れてしまうことが示されました。
chatGPTを使用している一部の人々は有料版であるGPT4の性能がここ数カ月で急速に悪化していると主張しており、OpenAI社が膨大な計算コストを削減する為AIの性能を意図的にダウングレードしているのではないかと推測しています。
GPTなどのAIはニューラルネットを走る疑似的な神経信号をシミュレートすることで回答を行っており、一般にAIが複雑化すれば出力により大きな電力を消費します。
一方、今回の研究結果に否定的な立場をとるプリンストン大学の研究者たちによれば、バージョンアップの予期せぬ副作用である可能性が高いとのこと。
OpenAI社も電気代節約のためにGPTの性能を落としているという主張に対して「あり得ない」と反論しています。
ただGPTのような生成型AIを更新するには何千人もの人間を雇い、彼らの意見をAI反映するという過程が必要ですが、そうして行われる変更は「浅い修正」となる可能性があるようです。
雇われた人間が好意的な反応や高い信頼感を示すものをAIは真似するように作られていますが、好意的なものや信頼感を感じられるものが真実とは限りません。
そのためGPTのバージョンアップがときに正確性を棄損する結果になることは十分にあり得ます。
ただバージョンアップによって既存の命令書通りに動かなくなってしまう場合、GPTをビジネスや研究に使っている人にとっては大きな打撃となりえます。
現在、OpenAI社はGPT4とGPT3.5の両方で以前のバージョンが使えるように、スナップショットバージョン(旧バージョン)を提供しています。
同社は以前のバージョンを今後少なくとも9カ月に渡って提供できるとしており、不安の鎮静化に努めています。
参考文献
Is ChatGPT’s Behavior Changing over Time? Researchers Evaluate the March 2023 and June 2023 Versions of GPT-3.5 and GPT-4 on Four Diverse Tasks
元論文
How Is ChatGPT’s Behavior Changing over Time?