2023/07/28

chatGPTが大幅性能低下！「数学正解率が98％から2％」検証論文を詳しく解説

視覚的な推論能力は僅かに改善した

視覚的な推論能力は僅かに改善した — Credit:Lingjiao Chen et al . How Is ChatGPT’s Behavior Changing over Time? . arXiv (2023)

最後に研究者たちは、視覚的な推論能力の変化を調べました。

このテストでは、GPTに対して複数の図形が提示され、一致している図形を選ぶことが求められます。

結果、上の図のように、GPT4とGPT3.5の両方において3月に比べて6月ではわずかな性能向上がみられました。

ただGPT4においては、3月の時点で解けたパズル問題が6月になるとできなくなっているケースもみられました。

（※GPT3.5は3月でも6月でもできませんでした）

このパズルは3つの例を参考に4つ目の「？」のパターンを推測するものであり、人間にとっては簡単なものです。

Credit:Lingjiao Chen et al . How Is ChatGPT’s Behavior Changing over Time? . arXiv (2023)

視覚的な推論能力は全体的に上がっているにもかかわらず、一部の問題の解決能力が失われているというのは、非常に興味深い現象と言えるでしょう。

そのため研究者たちはGPTのような高度なAIについては、バージョンアップで起こる変化を細かく監視していく必要があると述べています。

以前のバージョンを使う方法が残されている

以前のバージョンを使う方法が残されている — Credit:Canva . ナゾロジー編集部

今回の研究により、GPTはバージョンアップにともない、同じ内容の入力でも大幅に異なる出力が現れてしまうことが示されました。

chatGPTを使用している一部の人々は有料版であるGPT4の性能がここ数カ月で急速に悪化していると主張しており、OpenAI社が膨大な計算コストを削減する為AIの性能を意図的にダウングレードしているのではないかと推測しています。

GPTなどのAIはニューラルネットを走る疑似的な神経信号をシミュレートすることで回答を行っており、一般にAIが複雑化すれば出力により大きな電力を消費します。

一方、今回の研究結果に否定的な立場をとるプリンストン大学の研究者たちによれば、バージョンアップの予期せぬ副作用である可能性が高いとのこと。

OpenAI社も電気代節約のためにGPTの性能を落としているという主張に対して「あり得ない」と反論しています。

ただGPTのような生成型AIを更新するには何千人もの人間を雇い、彼らの意見をAI反映するという過程が必要ですが、そうして行われる変更は「浅い修正」となる可能性があるようです。

雇われた人間が好意的な反応や高い信頼感を示すものをAIは真似するように作られていますが、好意的なものや信頼感を感じられるものが真実とは限りません。

そのためGPTのバージョンアップがときに正確性を棄損する結果になることは十分にあり得ます。

ただバージョンアップによって既存の命令書通りに動かなくなってしまう場合、GPTをビジネスや研究に使っている人にとっては大きな打撃となりえます。

現在、OpenAI社はGPT4とGPT3.5の両方で以前のバージョンが使えるように、スナップショットバージョン（旧バージョン）を提供しています。

同社は以前のバージョンを今後少なくとも9カ月に渡って提供できるとしており、不安の鎮静化に努めています。

参考文献
Is ChatGPT’s Behavior Changing over Time? Researchers Evaluate the March 2023 and June 2023 Versions of GPT-3.5 and GPT-4 on Four Diverse Tasks

元論文
How Is ChatGPT’s Behavior Changing over Time?

関連タグ

関連記事（提供・）

今、読まれている記事

ハードオフで4千円のPS4、中から出た物体にギョッとした　「羨ましすぎる」とネット民驚愕

50代におすすめのゴールドカード13選【最新2025年版】メリット・審査・プラチナ比較まで解説

体調不良を訴えた妊婦に医師が「妊娠中だから当然」　産後に死亡する事態に

金髪店員の「大きい50円で良い？」発言に耳を疑うが…　お釣りの正体にネット民驚愕

“アレのやりすぎ”が認知症をグッと進行させる？　日常に潜むリスクに「心配」「気を付けなきゃ」の声

「腕がとれ体が溶ける病気」で数十億のヒトデが死亡。犯人がついに判明

客「食べ切れない量の嫌がらせ」投稿→ラーメン豚山が即座＆毅然と反論し話題

露呈した北朝鮮兵士の戦いぶりが揺さぶる影響：落とし穴になりかねないプーチン氏との連携

友人から貰った和菓子、パッケージ表記に目を疑う…　衝撃の「6文字」にネット民驚愕

薨去された三笠宮妃百合子妃殿下の生涯を振り返る

死刑囚の食事に「寄生虫」を仕込み、体内にいるときの生態を調べたヤバイ医者

「悠仁さまより愛子さまが天皇にふさわしい」という勘違い

サイゼリヤに異変、人気の味が突然消えショックの声急増　「とうとうこの日が…」

小泉進次郎氏が40人以上の支持を集め総裁選出馬へ

「相変わらず太郎は悪い奴」高嶋ちさ子、ダウン症の姉と兄が“対戦”も…　「最後のアングル」に反響

自宅に“あのスペース”があるほど、じつは危険？　意外な事実にスタジオでも「衝撃」の声

試合中、席を立った大谷翔平が向かった先は…　“とっさの行動”が反響呼ぶ「人類の模範」

医師の診察態度を左右する「患者の見た目」の真実

家の天井に巨大なクモ発見、思わず死を覚悟するも…　専門家は「ゴキブリを駆逐する戦士」と敬礼

美智子さま・雅子さまなどの愛用ブランドは？

“アレのやりすぎ”が認知症をグッと進行させる？　日常に潜むリスクに「心配」「気を付けなきゃ」の声

ふざけるな石破、ボロが出た小泉進次郎

最強のブタ！？巨体を誇るクマがブタに襲いかかった！！と思ったら、まったく怯まないブタに返り討ちに！

コンセント穴に挿さった謎の物体、恐ろしい正体に目を疑う　「死にかけた」という経験者も…

卵を週2回以上食べると「ある病気」の発症リスクが低下

中居正広氏の新たな報道、真実であれば「非常に重い犯罪行為」弁護士が見解　中居氏には“メリット”も

「悠仁さまより愛子さまが天皇にふさわしい」という勘違い

小泉進次郎氏が40人以上の支持を集め総裁選出馬へ

石破茂氏と高市早苗氏：「裏切り者」の失われた31年

「腕がとれ体が溶ける病気」で数十億のヒトデが死亡。犯人がついに判明

薨去された三笠宮妃百合子妃殿下の生涯を振り返る

ハードオフで4千円のPS4、中から出た物体にギョッとした　「羨ましすぎる」とネット民驚愕

美智子さま・雅子さまなどの愛用ブランドは？

愛子さまに対し贔屓の引き倒しをする人びと

「相変わらず太郎は悪い奴」高嶋ちさ子、ダウン症の姉と兄が“対戦”も…　「最後のアングル」に反響

試合中、席を立った大谷翔平が向かった先は…　“とっさの行動”が反響呼ぶ「人類の模範」

石破茂にやめて欲しくない人々

50代におすすめのゴールドカード13選【最新2025年版】メリット・審査・プラチナ比較まで解説

もやし、そのまま冷蔵庫に入れてない？　野菜のプロが教える「長持ちする保存方法」

『あんぱん』“ラスト2分”に絶句…　視聴者、崩れ落ちる「嘘だと言って」「涙止まらん」

“アレのやりすぎ”が認知症をグッと進行させる？　日常に潜むリスクに「心配」「気を付けなきゃ」の声

コンビニ駐車場の救急車に張り紙、その内容に目を疑う　「世の中間違ってる」と怒りの声も…

『あんぱん』“ラスト2分”に絶句…　視聴者、崩れ落ちる「嘘だと言って」「涙止まらん」

友人から貰った和菓子、パッケージ表記に目を疑う…　衝撃の「6文字」にネット民驚愕

玉木雄一郎　役職停止のご報告

水卜麻美アナ、じつは取得していた“資格”　説得力に多くの反響「すごい…」

いとうあさこ、貯金額を聞かれ「返した言葉」に反響　約6割が続かず挫折していた

再び「1世帯10万円」の給付金、対象外の世帯やマイナンバーカードなど注意点も

住民税非課税世帯に3万円給付に現役世代は怒り心頭

ふざけるな石破、ボロが出た小泉進次郎

コンセント穴に挿さった謎の物体、恐ろしい正体に目を疑う　「死にかけた」という経験者も…

最強のブタ！？巨体を誇るクマがブタに襲いかかった！！と思ったら、まったく怯まないブタに返り討ちに！

PAで発見したおにぎり、常識外な金額に目を疑う…「誰が買うんだよ」とネット民驚愕

卵を週2回以上食べると「ある病気」の発症リスクが低下

エアコンを使うとき4割以上が損してる？　“ある設定”をすると電気代がお得に…

「悠仁さまより愛子さまが天皇にふさわしい」という勘違い

10km/hオーバーまでは捕まらない？なぜ法定速度を超えても捕まらないのか？

偏差値67超え…芦田愛菜が進学「国内最難関」慶應大学法学部の凄さ、懸念材料も

4個に減った薄皮パン、衝撃の事実明らかに…　「これぞ神対応」とユーザー大歓喜

中居正広氏と一緒にいた“人物”が再注目　アルファベット「U」に広がる憶測「別の方向でヤバすぎ…」

もっと見る