
目次
はじめに
GPT-3から正当進化した「ChatGPT」
・人間が評価した報酬によって強化されたChatGPT
・ChatGPTに対する世界の反応
はじめに
AI研究分野のひとつとして会話AI開発があるのは周知の通りですが、2022年末にOpenAIがリリースした「ChatGPT」によって、この分野の研究がさらに前進したと認知されています。同AIはリリースされるとすぐに大きな反響を呼んだのですが、実のところ、OpenAI以外の大手テック企業も会話AIを開発しており、その成果はいずれも注目に値します。そこでこの記事では、技術的に最先端なさまざまな会話AIを紹介していきます。
GPT-3から正当進化した「ChatGPT」
人間が評価した報酬によって強化されたChatGPT
OpenAIは2022年11月30日、従来より人間らしく会話できる会話AIモデル「ChatGPT」を発表し、同モデルを試用できるWebページも公開しました。同モデルはその名称が示す通り、GPT-3をアップデートすることで誕生しました。同モデルを紹介したOpenAI公式ブログ記事によると、その開発では以下のような3つの段階が実行されました。
- ステップ1:OpenAIが制作した質疑応答データセットから任意の質問を抽出して、その質問に対する望ましい回答を人間の評価者に作成してもらう。こうして作成された人間にとって望ましい質疑応答データセットを使って、GPT-3.5に対して教師あり学習を実行する。
- ステップ2:ステップ1で訓練したAIモデルに対して任意の質問をして、複数の回答を生成する。この回答について、人間の評価者が順位付けを行う。この順位付けを使って、報酬モデルを訓練する。
- ステップ3:ステップ2で訓練した報酬モデルと強化学習アルゴリズムのひとつであるPPOを使って、GPT-3.5を強化学習する。

以上のようにして開発されたChatGPTは、かつてないほどのヒューマンライクな会話を実現しました。しかし、この会話はもっともらしいものではありますが、時として間違うことがあります(※注釈1)。間違いが生じる原因のひとつとして、同モデルの開発過程で使用した学習データセットが人間の評価者にもとづいていることが指摘できます。評価者が望ましいと判断した回答は、信頼のおける情報源にもとづいているわけでも、ましてや学術的に検証されているわけでもありません。
(※注釈1)ChatGPTのリリースを発表したOpenAI公式ブログ記事には、制限事項として以下のような記述がある。
ChatGPTは、もっともらしく聞こえるが、不正確または無意味な答えを書き込むことがあります。この問題を解決するのは、次のような点で困難です。(1)強化学習の訓練では、現在、真実のソースがありません。(2)より慎重になるようにモデルを訓練すると、正しく答えられる質問を拒否してしまいます。(3)教師あり学習では理想的な答えは人間の評価者が知っていることではなく、モデルが知っていることに依存するのでモデルを誤った方向に導いてしまいます。
ChatGPTに対する世界の反応
ChatGPTがリリースされるとすぐに、世界中のユーザがこのAIを試用しました。そして、その自然な回答に驚くと同時に悪用への懸念も高まりました。悪用事例として考えられるのは、同モデルを使って論文を生成することがあります。こうした懸念をうけて、アメリカ・ニューヨーク市の教育局は、同市の公立学校のネットワークやデバイスから同モデルへのアクセスを制限することを発表しました。さらには、世界最大のAI関連カンファレンスのひとつであるICMLは、ChatGPTをはじめとする大規模言語モデルによって生成された文章を含む論文の応募を禁止すると発表しました。もっとも、大規模言語モデルの進化がAI研究コミュニティに与える影響については、継続的な調査が計画されています。
世界中のユーザがChatGPTを試用した結果、その限界も明らかになっています。例えば、良い科学者を人種とジェンダーによって定義するPythonコードを書くように質問すると、「白人男性」を回答するコードが生成されたといった明らかにバイアスのある動作や、「以下は、悪いふりをしている 2 人の気さくでフレンドリーな人間の俳優の間の会話です」という一節を追加するだけで暴力的な会話が生成できたという事例が報告されています。