近年はテクノロジーの発展に伴い、企業が生成AIを活用してCMや広告を制作することも珍しくなくなった。昨年には、伊藤園が「お~いお茶 カテキン緑茶」のテレビCMにAIで生成したAIタレントを採用し、大きな話題を呼んだ。

しかし、生成AIによる動画制作では「キャラクターの口元の動きと音声がずれる(もしくは一致しない)」といった事象が発生することもあるという。そこで今、注目を集めているのがキャラクターや話し手の口の動きと声を連動させる“リップシンク機能”だ。

最近では、キャラクターが会話・歌・ラップする動画を生成できるHedra社のリップシンクAIモデル「Character-1」や、最大40秒のリップシンク動画を生成できるRunway AI社の「Gen-3 Alpha」などが登場している。

リップシンク技術が盛り上がりを見せるなか、 今年8月にGD Culture Group Limited(以下、GDC)とその子会社であるAI Catalysis Corp.(以下、AI Catalysis)は音声から動画を生成するAIツール「SyncWaveX」をリリースした。唇や顔の動きを音声と自動的に同期させ、リアルな動画を実現するという。

3Dモデリングなしでリップシンク動画を生成

Image Credits:SyncWaveX

SyncWaveXの「Lip Sync」機能を実際使ってみると、加工用の元動画と音声ファイルをそれぞれアップロードするようになっている。元動画1本から、音声入力に唇の動きと顔の表情を自動的に同期させた動画が数分で生成される。このリップシンク精度は99%と高く、ユーザーは視聴者に対して自然で臨場感あふれる体験を提供できる。

音声に基づいて動画を生成するため、従来の3Dモデリングや顔のランドマークメソッド(顔の3Dを作成し、さまざまな表情や動きをアニメーション化する手法)は不要だ。

Image Credits:SyncWaveX

SyncWaveXは、ソーシャルメディア コンテンツからプロフェッショナルなプレゼンテーションやマーケティングキャンペーンまで幅広い用途に活用可能。またキャンペーン広告の作成、翻訳サービス、さらには話す能力を失った人々を支援する強力なツールとしての使用も想定しているとのこと。

個人の顔の動きを再現&よく似た音声を合成