近年はテクノロジーの発展に伴い、企業が生成AIを活用してCMや広告を制作することも珍しくなくなった。昨年には、伊藤園が「お~いお茶 カテキン緑茶」のテレビCMにAIで生成したAIタレントを採用し、大きな話題を呼んだ。
しかし、生成AIによる動画制作では「キャラクターの口元の動きと音声がずれる(もしくは一致しない)」といった事象が発生することもあるという。そこで今、注目を集めているのがキャラクターや話し手の口の動きと声を連動させる“リップシンク機能”だ。
最近では、キャラクターが会話・歌・ラップする動画を生成できるHedra社のリップシンクAIモデル「Character-1」や、最大40秒のリップシンク動画を生成できるRunway AI社の「Gen-3 Alpha」などが登場している。
リップシンク技術が盛り上がりを見せるなか、 今年8月にGD Culture Group Limited(以下、GDC)とその子会社であるAI Catalysis Corp.(以下、AI Catalysis)は音声から動画を生成するAIツール「SyncWaveX」をリリースした。唇や顔の動きを音声と自動的に同期させ、リアルな動画を実現するという。
3Dモデリングなしでリップシンク動画を生成

Image Credits:SyncWaveX
音声に基づいて動画を生成するため、従来の3Dモデリングや顔のランドマークメソッド(顔の3Dを作成し、さまざまな表情や動きをアニメーション化する手法)は不要だ。

Image Credits:SyncWaveX