今回、ユハオ・カン氏ら研究チームは、AIを使ってこれを実現しようとしました。

なんと彼らは、環境音からかなり正確にその風景を予測するAIを開発したのです。

人間の脳波を元に、人間が思い浮かべている風景を画像生成するAIなども既に存在していますが、この新しく開発されたAIは、周囲の環境音を元にその音が録音された風景を予測し、画像生成することができるのです。

環境音から正確に元の風景を予測するAIが登場

「環境音から元の風景を予測するAI」を生み出すため、研究チームは最初、北米、アジア、ヨーロッパの都市のYouTube動画とその環境音を収集しました。

そして風景の静止画像とそれに対応する10秒間の環境音クリップを作成しました。

次に、これら様々な場所の「画像と環境音クリップのペア」を用いてAIをトレーニングし、環境音だけで、オリジナルの風景を正確に予測できるようにしました。

そして、このAIの性能をテストするため、録音された100個の環境音から、その風景を予測するようAIに指示し、オリジナル画像と比較しました。

画像
環境音から生成された画像は、オリジナルの風景とかなり似ている / Credit:Yuhao Kang(UT Austin)_Researchers Use AI To Turn Sound Recordings Into Accurate Street Images(2024)

その結果、AIが生成した画像とオリジナルの風景では、空、緑、建物の割合が相関関係にあると分かりました。

実際、2つの画像を比較すると、近くに存在する建物だけでなく遠くのビル、自動車の交通量、川や海の存在、通路などの要素がかなり似ていました。

さらに生成された画像は、晴れ/曇り、昼/夜などの照明条件も反映しており、これはAIが、夜間における交通量の減少や夜行性の昆虫の鳴声などを参考にした可能性を示しています。

今回の実験では、AIがかなり正確に元の風景を予測できると分かりました。