コンピュータが音楽を自動解析する「音楽理解技術」の研究

――音楽をコンピュータで扱うとなると比較的新しい分野なのかなという印象を抱きますけど、こういった音楽情報処理の研究っていつ頃からあるんですか?

後藤:実は音楽情報処理の研究の歴史は古くて、コンピュータの発明とほぼ同時期の1940~1950年代には取り組まれていました。

――え? そんな昔からあるんですか。その頃ってどういうことをやっていたんですか?

後藤:自動作曲をする試みが初期は多くて、その後、シンセサイザのようなデジタル楽器やデジタル録音環境といった、現代の音楽制作にはなくてはならない技術が生まれていきました。

当初は一部の音楽家が使う技術として研究されていたんですが、1980~1990年代に入って家庭にもパソコンが普及するようになると、趣味で音楽を楽しむ人たちも使う技術になっていきます。私も当時、パソコンで音楽制作をして遊んでいました。

音楽情報処理分野の歴史
音楽情報処理分野の歴史 / Credit:産業技術総合研究所

――ああ、その辺からデスクトップミュージック(DTM)みたいな言葉も聞くようになった感じがしますね。ただ、かなりマニアックな印象でしたね。

後藤:その後、1990年代の後半に音響圧縮技術のMP3が普及して、2000年以降にMP3プレーヤーや音楽配信が普及するとガラッと雰囲気が変わって、一般の人たちが音楽を楽しむ手段としてパソコンが当たり前のものになっていきました。

――確かに初代iPodの発売が2001年10月でしたね。もう若い人にはiPadを書き間違えてますよって言われちゃいそうですけど。

後藤:なので歴史は古いですが、音楽情報処理が社会に不可欠な技術として一般的に広く普及するようになったのは2000年以降で、それから20年の間に世界中で研究者も増えて、大きな研究プロジェクトも次々と立ち上がる分野になっていきました。

こうしてすべての音楽がデジタル化されて、創作したり、配信されたり、聴いたりすることが当たり前になったんです。

――漫画なんかもみんな手で描いていたのが、今は鳥山明もデジタルで描いてるみたいな話を聞くのと似た感じですね。

後藤:ただ、その結果、アクセスできる楽曲の数が膨大になりました。昔はCDショップの店頭に並んでいたり、テレビやラジオ、ライブで流れたりする音楽しか聴けなかったのが、過去の数十万~数千万曲をいつでもどこでも聴ける時代になったわけです。

こうして沢山聴けるのは嬉しい反面、知っている曲名やアーティスト名で検索するだけでは、好みの音楽を見つけられません。もしみんなが探すのを諦めて、ランキングに上がるヒット曲しか聴かないと、誰かの好みに合う新曲が生まれても聴いてもらえない問題が起きて、音楽の多様性も失われかねません。しかもアクセスできる楽曲は増え続けるので、未来に出る新曲ほど埋もれやすくなってしまうんです。

――確かに、音楽は映画などを探すのと違って視覚的な手がかりも乏しいですし、映画や小説と比べても数が膨大になりますよね。触れられる曲が膨大になった以上、探す方法や聴き方にも変化が起きないと新しい曲との出会いが制限されてしまうんですね。

後藤:なので、これからの時代はこの膨大な楽曲を何らかの方法で出会いやすいように変えていく必要がある。人々の音楽体験は過去も技術の力で変化して来ましたが、未来においても技術の力で助けてもらいたいわけです。

――なるほど。音楽がデジタル化されて膨大なデータになったことで、私たちの音楽との接し方はどんどん変化していくことになる。それが最初に少し見てもらった未来の音楽体験という部分にも繋がって行くんですね。

後藤:そのための音楽情報処理の研究にはいろいろな成果がありますが、特に、私が31年間取り組んでいるのが「音楽理解技術」です。

音楽というのは色々な音が混ざった音響信号で、その音楽の中身をコンピュータで自動解析して、メロディやベース、ビート、サビ、ドラム、コード進行のようないろいろな音楽的要素を取り出そうというのが、この技術の基本的な部分です。

ただ人間なら聴けばわかっても、コンピュータが自動的に求めるのは難しかったんです。

コンピュータが音楽の中身を自動解析する「音楽理解技術」
コンピュータが音楽の中身を自動解析する「音楽理解技術」 / Credit:産業技術総合研究所

――確かに私たちも「この曲サビがいいね」とか良く言いますけど、じゃあ「サビってなんだ?」って聞かれると「一番盛り上がるところ…?」とか曖昧にしか答えられないですね。そんなニュアンスは機械には当然通じないし、機械にサビを理解させようとしたらどうすればいいのかちょっと想像できないですね。

後藤:そうしたサビを自動検出して、さらにその結果で何か役立つことができないか、と考えて20年くらい前に研究開発したのが、音楽試聴のための「SmartMusicKIOSK(スマートミュージックキオスク)」というシステムです。

「SmartMusicKIOSK」の画面。
「SmartMusicKIOSK」の画面。画像をクリックするとデモ解説を視聴できます。 / Credit:産業技術総合研究所

これは一番上のオレンジ色の区間がサビの繰り返しを表していて、それ以外の緑色の区間はサビ以外の繰り返し構造を表しています。それぞれの区間がボタンになっていて、クリックすると再生できます。右下には「サビ出し」ボタンもあって、曲の頭からではなく、いきなりサビから聴けます。これは沢山の楽曲の中から自分好みの曲を見つけるような試し聴きをするときに非常に便利で、サビを聴いて気に入ったら、一曲を通して聴く、みたいな聴き方が可能になります。

――なるほど。さっきの膨大な音楽から好みの楽曲を見つける、みたいな話につながってきますね。

後藤:このシステムでは、ポピュラー音楽の曲中で転調したり伴奏が変化したりしても、サビの繰り返しを見つけることを世界で初めて可能にしました。これは技術的には結構すごいことで、転調して音の高さが変わったり、歌の伴奏が大きく変化したりすると音響信号的にはまったくの別物になってしまう難しさがあります。それに対処して曲の中の繰り返しを見つけ、サビを検出できているんです。

――さっきもサビって聴けば分かるけど、何なのかわからないという話をしましたが、これはどうやってコンピュータにサビを理解させたんですか?

後藤:音量が大きかったりメロディの音が高かったりすればサビ、というわけではないので、SmartMusicKIOSKでは、楽曲中の繰り返し構造に着目しています。さきほどの画面で、いろいろな緑色の区間の繰り返しがありましたが、それらをまずはサビの候補として見つけます。次に、サビは曲の中でも一番聴かせたい部分なので最も繰り返される、ということを仮定して、そういう区間のサビらしさを高く評価します。他にも、サビには構造的な特徴があって、ある繰り返し区間の中でその半分の長さでさらに2回繰り返される区間や、曲の1番2番みたいな長い繰り返し区間の最後に出てくる繰り返し区間は、サビらしさが増すという処理も入っています。

そういった要素をいろいろと考慮して、サビ区間を求めています。

――確かにこうなるとただのシークバーと違って、曲の中身が一気にわかりやすくなって聴きやすい感じがしますね。

後藤:そうですね。従来はこのように何もないシークバーが表示されるだけでした。これだと初めて聴く曲の場合、どんな構造でどの位置で何が起きているのかさっぱり分かりません。

従来のシークバーだけでは曲の構造について何もわからない。
従来のシークバーだけでは曲の構造について何もわからない。 / Credit:産業技術総合研究所

それがSmartMusicKIOSKで曲の中の繰り返し構造を可視化すると、普段あまり構造を意識せずに聴いている人でも、「ここはどうなってるんだろう?」みたいに意識が向くようになります。

例えば、この曲はまず、サビが5つあることがすぐわかります。さらに、サビの頭の歌詞に注目して聴いてみてください。

SmartMusicKIOSKを使うと曲の構造の理解が深まる。
SmartMusicKIOSKを使うと曲の構造の理解が深まる。画像をクリックすると実際に曲を聴きながら解説している様子を視聴できます。 / Credit:産業技術総合研究所

※上記の楽曲をSmartMusicKIOSKで聴いている様子のリンク

サビだけをクリックして順番に聴いていくと、最初のサビは「春色はきみの色~」と歌っていて、次のサビに飛ぶと「夏色はきみの色~」と歌っているんです。そうなると先の展開も予想できます。

――そうですね。季節を歌ってますよね。だから「秋」「冬」と続きそうです。

後藤:実際にその後のサビを聴くと、「秋色は~」「冬色は~」となってます。ただ、そうなると5番目はいったい何なんだろう、と特別な関心を持って聴きたくなります。それで再生すると、「世界中にきみの色~」となっていて、ああ作詞家はそういう風にこの曲を創っているのか、と普段は歌詞にあまり注意を払っていない人であっても、曲の理解が深まるんです。

――確かに曲のストーリーみたいなものも見えてくる感じがしますね。

後藤:こうやってSmartMusicKIOSKで音楽を聴くのはとても新鮮で楽しく、私は2002年にこれを開発できたとき、もう楽しくて自分で夢中になって何時間もいろいろな曲のサビ検出結果を見ながら遊んでしまいました。

――自分で作ったもので何時間も遊んじゃうっていいですね。やっぱり技術系の研究者は自分が欲しくて、でもまだこの世に無いものを初めて自身の手で作り出すっていうお仕事でしょうから、その喜びが感じられて。

後藤:そうやってさまざまな曲で試しているうちに、技術で支援してもらいながら曲の再生位置をインタラクティブに変えて鑑賞してみると、さっきの歌詞の例みたいに、音楽を理解する力が増す、つまり、音楽の理解力が技術の力で拡張できる、ということを発見しました。沢山の楽曲の試し聴きに便利、みたいな出発点だったのが、音楽理解技術を用いた音楽鑑賞インタフェースを実現すると、他にも嬉しいことがいろいろとわかってくるわけです。

もともと音楽の鑑賞というのは受動的なだけではなく、聴きながら手拍子を打ったり声を出したりして能動的に鑑賞することを人は自然にやっていたわけです。

そこでさらに、音楽理解技術で世界初の音楽インタフェースを実現すると、もっと能動的に音楽とのインタラクションを楽しめるような新たな体験をいろいろと切り拓けることに気づき、「能動的音楽鑑賞インタフェース」という新概念を提案しました。

今紹介したのはその一例ですが、その後、さまざまな音楽理解技術と10種類以上の能動的音楽鑑賞インタフェースを実現していったんです。既存の曲を再生しながらドラム音やドラムパターンをその場で差し替えるような、より自分好みに加工するためのインタフェースも開発したりしました。沢山の楽曲に対してテキスト以外で検索するインタフェースもいろいろと開発してきています。

――こういうのは一般目線でもすごく面白いですけど、学会でも同様の反響ですか?

後藤:ええ。こういう研究成果を国際会議や国内学会で発表すると、「これは素晴らしい!」とすごく高く評価してもらえて、「家で使わせて欲しい」っていっぱい言ってもらえて嬉しかったです。でも、やっぱりなかなかそのままでは使ってもらえないわけです。あくまで研究室内の技術デモだし、高性能なコンピュータで計算していたりしたので。

――確かに個人制作のプログラムでも環境によって動かないとかしょっちゅうですから、研究中の技術ってなるとなおさら大変そうですね。

後藤:なので、こういう能動的音楽鑑賞の研究を10年くらいやっていく中で、社会にもっと直接的に技術貢献するにはどうすればいいかということを考えはじめました。それで今から10年くらい前に始めたのが、ウェブサービスの形で私たちの音楽理解技術を体験してもらえるようにしようという取り組みでした。

――なるほど、それが最初に見せてもらったような、一般の人でもすぐに触れるサービスの公開になるんですね。ではここからは最初にも少し見せてもらいましたが、後藤さんたちが公開したさまざまなウェブサービスに触りながらお話しを伺っていきたいと思います。