研究では、AIの学習を進めるにあたり大きく分けて二つの手法がとられました。

まず一つ目は、「AIが多種多様なタスクにどの程度対応できるか」を確かめるための検証です。

具体的には、Atariゲームやロボット制御タスク、3D迷路、そしてマインクラフトなど、150を超える異なる環境を用意し、そのすべてで同じアルゴリズムを動かして性能を測定しました。

通常であれば、環境ごとにパラメータを入念に調整したり、特別な追加データを与えたりする必要があります。

しかしこの研究では、ほぼ固定の設定で一通り学習を行うという大胆な方法を選んだのです。

結果として、従来は「これ専用の手法でなければうまくいかない」と思われていたタスクでも、新しいAIアルゴリズム「Dreamer」が十分以上の成績を示すケースが多く見つかりました。

たとえば、あるタスクでは動作制御に特化した以前のアルゴリズムと同等かそれ以上の得点をマークし、また別のタスクでは画像を扱うゲーム環境でも高い適応力を示しました。

「ひとつのAIがさまざまな領域でそれなりにうまく立ち回れる」という事実は、これまでの“特化型AI”の常識を覆す重要な一歩といえるでしょう。 

二つ目の柱として、とりわけ注目を集めたのが「マインクラフト」を舞台にした実験です。

ご存じの方も多いかもしれませんが、マインクラフトはプレイするたびにワールド(地形や資源配置)が自動生成されます。

つまり、一度うまくいった方法が必ずしも次回も通用するとは限りません。

しかも、最終的な目標のひとつであるダイヤモンドは地下深くにあって、「何をどう掘ればたどりつけるか」がさっぱりわからない状態からのスタートです。

そこで研究チームは、より挑戦的な条件として、人間のプレイデータや攻略のヒントをまったく与えない方式を選びました。

要するに、AIは文字どおり手探りの状態で行動し、あらゆる過程を自分で学んでいかなければならなかったのです。