MuZeroはルールを教えられなくても、従来のAIを超える能力を獲得した

ゲームのルールを一切教えなくても「自ら学んで戦えるAI」が開発される!
(画像=MuZeroは①値②方針③報酬の環境要素をモデル化する / Credit:DeepMind、『ナゾロジー』より引用)

MuZeroはルールを把握するために、環境から次の3要素をモデル化します。

①値:現在の位置はどれくらい良いか?

②方針:どのアクションを実行するのが最適か?

③報酬:最後の行動はどれくらい良かったか?

つまりMuZeroは、成功した手法から学び、失敗した手法を避け、関連性と成功率が最も高い操作を優先していくのです。

従来のAIは「ルール」と「先読み検索」という原則で成り立っています。そのためルールに基づいて対戦相手が指し得る膨大な手を予測し、すべて評価しなければいけませんでした。

しかし、MuZeroは「経験から学ぶ手法」であり、そこから最善の手を生み出します。そのためルールが与えられていなくても戦えますし、試行回数が増えるにつれて能力も向上していきます。

ゲームのルールを一切教えなくても「自ら学んで戦えるAI」が開発される!
(画像=チェス・将棋・囲碁:(縦軸)能力値、(横軸)試行回数、(青線)MuZero、(オレンジ線)従来AI / Atari:(青線)MuZero、(オレンジ線)人間、(実線)平均値、(破線)中央値 / Credit:DeepMind、『ナゾロジー』より引用)

実際、MuZeroはシンプルなルールの囲碁、チェス、将棋において従来のAIと同等の能力を身に着け、場合によっては打ち負かすこともできたとのこと。

さらに、画像情報が多いため従来のAIではモデル化が難しいとされていたビデオゲーム「Atari」の57作品(パックマンのようなクラッシックゲームなど)においても、ルールを一切教わらずに、一般的な人間に勝てるようになったというのです。

さて、今回の報告によって、AIがゲームの分野で「ルールを発見し、一般的な人間や従来のAIを超える」という大きな課題をクリアしたと分かります。

このアルゴリズムを応用すれば、「ルールが知られていない」ロボット工学、産業システム、または現実世界の環境における新たな問題を解決するのに役立つかもしれません。


参考文献

techxplore

, DeepMind


提供元・ナゾロジー

【関連記事】
ウミウシに「セルフ斬首と胴体再生」の新行動を発見 生首から心臓まで再生できる(日本)
人間に必要な「1日の水分量」は、他の霊長類の半分だと判明! 森からの脱出に成功した要因か
深海の微生物は「自然に起こる水分解」からエネルギーを得ていた?! エイリアン発見につながる研究結果
「生体工学網膜」が失明治療に革命を起こす?
人工培養脳を「乳児の脳」まで生育することに成功