目次
タスク遂行と雑談を統合するMicrosoftの「GODEL」
外交ゲーム「ディプロマシー」を人間以上にプレイするMetaの「CICERO」
まとめ
タスク遂行と雑談を統合するMicrosoftの「GODEL」
Microsoftが開発した会話AIには、2022年6月23日に発表された「GODEL(Grounded Open Dialogue Language:オープンな対話に接地された言語モデル)」があります。同モデルを解説したMicrosoftリサーチブログ記事によると、会話AIが実行するべき会話にはヘルプデスクのチャットボットのように特定の目的を遂行するためのタスク指向型と、雑談のようにコンテクストさえ続いていればどんな話題も許容するオープンドメイン型があります。同モデルは、この2種類の会話を高品質に実行できるように設計されました。
2種類の会話を実行するために、GODELは会話のタイプに合わせてアルゴリズムを切り替えます。例えば、おすすめのレストランを回答するようなタスク指向型の会話の場合、事前学習したレストランのデータベースがあれば、そのデータベースを参照しておすすめのレストランを回答します。適切なデータベースがない場合には、インターネット検索しておすすめのレストランの情報を抽出して回答します。
話題が頻繁に変わる雑談の場合にはGODELは直近の会話に合わせて、コンテクストが一貫しているような文章を生成して回答します。

Microsoft研究チームは、GODELの性能を評価するために各種評価データセットを用いた自動評価(以下の画像左側のグラフ)と人間のテスターによる評価(以下の画像右側のグラフ)を実施しました。人間のテスターには、所与の回答に対して以下のような3つの観点にもとづいて評価してもらうようにしました。
- 外発的評価(Extrinsic evaluation):所与の回答は有用に思えるか。
- 内発的評価(Intrinsic evaluation):所与の回答は人間らしく感じられるか。
- 安全性評価(Safety evaluation):所与の回答は社会的に安全に思えるか。
以上のようなテストをした結果、GODELは比較対象とした言語モデルのT5と比べて、すべての評価項目において上回る結果となりました。

なお、GODELの論文とソースコードはそれぞれ公開されています。
外交ゲーム「ディプロマシー」を人間以上にプレイするMetaの「CICERO」
Metaも自然言語処理を熱心に研究しており、最近の会話AI研究の成果として2022年11月22日に発表された「CICERO(キケロ)」(※注釈5)があります。もっとも、同モデルは外交ゲーム「ディプロマシー」のプレイに特化したものです。このゲームは7人のプレイヤーがヨーロッパにおける自国の領土拡張を目指す戦略ゲームなのですが、ゲームプレイ中にプレイヤーどうしが会話で交渉することを特徴としています。この会話によって協調行動を約束して平和的に領土拡張を目指してもよいのですが、約束を裏切って領土を奪う戦略もあり得ます。こうしたゲームで勝利するためには、高度な心理戦にもとづいた会話が必要となります。
(※注釈5)CICEROの名称は、古代ローマ時代の政治家であり文筆家でもあるキケロに由来すると推測される。 CICEROを開発するにあたり、Meta研究チームは同社が開発した言語モデルBARTをベースにして、オンラインのディプロマシープレイサイトwebDiplomacy.netから4万以上のプレイログを収集して訓練しました。こうしたうえでCICEROは、以下のような4つの処理を実行してディプロマシーをプレイするようにしました。
- 処理1:ゲーム盤の状況と現在までの会話にもとづいて、各プレイヤーの行動を予測する。
- 処理2:処理1の予測を洗練させて、最終的な外交戦略を決定する。
- 処理3:処理2で決定した外交戦略の意図に沿うような交渉メッセージを複数生成する。
- 処理4:処理3で生成したメッセージから無意味なものを削除するなどして、実際の交渉に使うメッセージを絞り込む。
以上の処理1における行動予測は、過去のプレイログを学習データとした教師あり学習によって出力されるものです。この予測は交渉に失敗した行動も学習したうえで出力されるので、しばしば交渉失敗につながるものとなってしまいます。こうした欠点を補うために、処理2が実行されます。処理2においては、Meta研究チームが独自に開発したアルゴリズムであるpiKLが用いられます。

CICEROのゲームプレイ特集ページによるとMeta研究チームは2022年8月から10月にかけて、webDiplomacy.netを使って実際に人間プレイヤーと対戦しました。対戦結果をまとめると、以下の箇条書きのようになります。この結果からCICEROは、平均的なディプロマシープレイヤーより強いことがわかります。
- 匿名の人間プレイヤー82人を相手にして40試合をプレイした。
- CICEROは各ゲームプレイにおいて、他の6人のプレイヤーに平均して130通のメッセージを送った。
- CICEROが獲得した平均スコアは、対戦プレイヤーのそれの2倍以上であった。
- CICEROは、1試合以上プレイしたプレイヤーのうち上位10%にランクインした。
Meta研究チームがCICEROを開発した理由は、最強のディプロマシープレイAIを作るためではありません。その理由とは、CICERO開発によって会話を通して人間と複雑に相互作用できるAIに関する知見を得るためなのです。そして、こうした知見の応用事例として、何らかのスキルを人間に教えるティーティングAIが挙げられています。このAIには、教える人間の理解度に合わせて会話を変える柔軟性が必要となるでしょう。そのほかの応用として、メタバースで登場するNPCを制御するAIも考えられています。
CICEROに関する論文とソースコードは公開されています。
まとめ
以上のように大手テック企業が開発する会話AIをまとめると、OpenAIの技術力が著しく傑出しているわけではなく、各社がしのぎを削っていることがわかります。こうした開発競争におけるひとつの傾向として、ヒューマンライクな会話AIを開発するためには、人間の価値観や評価をアルゴリズムに取り込む必要があることが指摘できるでしょう。この傾向をふまえると、Googleが開発する「会話から行動する」ロボットは、近い将来、実際に人間と暮らすことで人間の行動原理を学習するようになるでしょう。
また、CICEROのような特定の目的やコンテクストに特化した会話AIを開発する余地はまだ大いにあるでしょう。将来的には、汎用的な会話AIを目的に応じてカスタマイズしたり再訓練したりするようになるのかも知れません。
いずれにしろ、会話AIを含めた自然言語処理をめぐる研究開発には、広大な未開の地が残されています。そうした未開地のなかには日本語の会話AIのさらなる進化も含まれているので、今後の研究に期待しましょう。
記事執筆:吉本 幸記(AINOW翻訳記事担当)
編集:おざけん
提供元・AINOW
【関連記事】
・AIによるメリット・デメリットは?人工知能の問題点と解決策も紹介
・機械学習関連インターンまとめ32選
・初心者でもわかるディープラーニング ー 基礎知識からAIとの違い、導入プロセスまで細かく解説
・元DeepMindリサーチャーが日本で起業!AI活用でSDGs達成を目指す
・【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう!