研究チームはまず、開発した強化学習システム「Robot Drummer(ロボットドラマー)」が本当に演奏を学べるかどうかを試すため、安全かつ大量の試行ができるコンピューター上の仮想環境を使いました。この環境には、実在する人型ロボット「Unitree社製G1モデル」を再現したデジタルモデルとドラムセットが設置されています。
ロボットはこの中で、様々なドラム演奏をシミュレーションによって学習します。
演奏する楽曲の情報は、MIDI(ミディ)という形式のデータから取り出されます。MIDIとは「どの楽器が、いつ、どんな音を鳴らすか」という情報を記録した、デジタル譜面のようなものです。
そこからドラムのパートだけを抽出し、「この瞬間にどの太鼓を叩くか」という目標の列に変換します。
研究者たちはこの一連の打点の流れを「リズミック・コンタクト・チェーン(RCC)」と名付けました。
たとえば「次はスネアとシンバルを同時に叩く」といったように、ドラム演奏の動作を時間順に並べた“打撃スケジュール”のようなものです。
ロボットにはこのRCCに加えて、自分の腕や関節の角度、速度、ドラムとの位置関係といった身体感覚の情報も与えられます。
それらをもとに、「今の姿勢」から「次にすべき動き」をどうつなげるかを学習し、どの腕をどう動かせばうまく打点に間に合うかを試行錯誤しながら練習を積みました。
この学習は、8192体のロボットを同時にシミュレーション内で動かす並列環境で行われました。
曲をいくつかの区間に分けて覚える方式では、2〜3時間ほどで高い演奏精度に達し、曲全体を一括で学ぶ方式では8〜9時間かかりました。
学習後、ロボットはジャズやロック、ヘビメタルといったさまざまなジャンルの楽曲でテストされました。
評価に使われた曲には、
「リヴィン・オン・ア・プレイヤー(ボン・ジョヴィ)」
「テイク・ファイブ(デイヴ・ブルーベック)」