Soraの根底にある技術

画像
Credit:川勝康弘

この技術の裏には、2つの先進的なAI技術の融合があります。

まず、絵を描く魔法のように機能する「拡散モデル」(ランダムな画像ピクセルを徐々に具体的な画像へと変化させる技術)。

この技術は、まるでキャンバスに散らばった絵の具が徐々に形を成していくかのように、無秩序にばらまかれた画像のピクセルを、意味のある一枚の画像へと変化させることを可能にします。

これは、画像生成ツールDALL-Eが使用するのと同じ技術です。

次に、「トランスフォーマー アーキテクチャ」(連続データを文脈化してつなぎ合わせる技術)。

この技術は、情報の海を航海する船長のように、データの流れを見極め、それらを文脈に合わせて組み立てていきます。

chatGPTをはじめとした言語を扱うAIモデルでは、この技術を使って単語を繋ぎ合わせ、私たちが理解できる文章を作り出します。

動画生成AIであるSoraでは、このトランスフォーマー アーキテクチャが、ビデオクリップを視覚的な「時空のパッチワーク」として扱い、それらを巧みにつなぎ合わせて、目を見張るような映像を生み出します。

NVIDIA の上級研究者であるジム ファン氏は、ソーシャル メディア プラットフォーム X で、Sora が世界をシミュレートできる「データ駆動型の物理エンジン」であると賞賛しました。

「データ駆動型の物理エンジン」というのは、実際の世界の物理法則を基にしたシミュレーションを行うソフトウェアの一種です。

従来の物理エンジンが数学的な公式や理論に基づいて設計されているのに対し、データ駆動型は大量のデータから学習しています。

このアプローチでは、実世界で観測された現象のデータを収集し、それらのデータをもとにして、物理現象をより正確に再現できるようにします。

画像生成AIが指を描くのが苦手なようにSoraにも苦手分野がある

OpenAIが開発したSoraは、まるで映画のワンシーンのようなリアルな動画を作り出すことができますが、その能力の背後には、まだ乗り越えるべき課題も存在します。

複雑な動きの物理的挙動を正確にシミュレーションできなかったり、原因と結果を理解できないことがあるのです。

例えば、人がクッキーをかじった後、その跡がクッキーに反映されない場合などが確認されています。

ほかにも、歩いている人間の左右の足の位置が入れ替わったり、椅子が空中にランダムに浮かんだりと、空間に関する説明や、カメラの動きをたどるといった経時的な変化の説明を、誤って解釈することがあるようです。

同社は現行のモデルには不得意とする要素があることも認めています。

画像生成AIが人物の指の数や足の数、耳の形状を生成するのが苦手なように、Soraにも苦手分野が存在するわけです。

画像
Credit:Canva . 川勝康弘

これらの問題を解決すべく、同社はSoraがビジュアルアーティストやデザイナー、映像製作者に公開してフィードバックを受ける予定だと述べています。

しかしそうやってより完璧な動画を作れるようになると、他のAIと同じ問題が深刻化します。

発達したAI技術によって、偽物と本物の区別が困難になる時代がますます近づいています。

たとえばSoraを音声生成AIと組み合わせると、人々が実際に行ったことのない発言や行動のディープフェイクを作成できてしまいます。

このような高度なフェイク動画は、一般人を簡単にだますことができるでしょう。

現在Soraを安全に利用できるようにするため、OpenAI社はいくつかの重要な安全対策を講じているとのこと。

特にAIがもたらす害やリスクを評価するために編成された「レッドチーム」はその中心となる存在です。

彼らは「誤った情報、憎悪に満ちたコンテンツ、偏見などの分野の専門家」として知られています。

彼らの働きが成功すれば、アイドルの熱愛、政治家の不正などの偽動画、さらには不倫の証拠をでっち上げるなどプライバシーの侵害や社会的な損失を及ぼすような偽動画の生成をブロックできるようになるでしょう。

参考文献

Introducing Sora, our text-to-video model.

ライター

川勝康弘: ナゾロジー副編集長。 大学で研究生活を送ること10年と少し。 小説家としての活動履歴あり。 専門は生物学ですが、量子力学・社会学・医学・薬学なども担当します。 日々の記事作成は可能な限り、一次資料たる論文を元にするよう心がけています。 夢は最新科学をまとめて小学生用に本にすること。

編集者

海沼 賢: 以前はKAIN名義で記事投稿をしていましたが、現在はナゾロジーのディレクションを担当。大学では電気電子工学、大学院では知識科学を専攻。科学進歩と共に分断されがちな分野間交流の場、一般の人々が科学知識とふれあう場の創出を目指しています。