●この記事のポイント
・エヌビディアのフアンCEOは石破茂首相に面会し、「次のAIの波はフィジカルAI」だと力説
・エヌビディアは開発基盤モデル「Cosmos」やロボット向け開発環境「Isaac」を運用
・グーグルもロボット工学向けAIモデル「Gemini Robotics」を発表

 米半導体大手・NVIDIA(エヌビディア)のジェンスン・フアンCEOは21日、石破茂首相に面会。「次のAIの波はフィジカルAI(物理AI)」だと力説し、注目されている。生成AIをはじめとするAIの活用はソフトウェアやサービスの領域で広まっているが、ロボットや自動運転車など物理的な動作に利用されるのがフィジカルAIだ。開発基盤モデル「Cosmos」やロボット向け開発環境「Isaac」を運用するエヌビディア、ロボット工学向けAIモデル「Gemini Robotics」を運用する米Google(グーグル)などが先行しているとされ、フアンCEOはフィジカルAIが将来的に50兆ドル(約7157兆円)規模の機会になると発言している。現在、世界の開発・実用状況はどうなっているのか。また、なぜエヌビディアはフィジカルAIを強調しているのか。専門家の見解を交えて追ってみたい。

 1月に開かれた世界最大級のテクノロジー見本市「CES」や3月に開催されたエヌビディアの開発者会議「GTC 2025」における講演をはじめ、ここ最近、同社のフアンCEOがしきりに強調するキーワードがフィジカルAIだ。背景としては、同社がこの分野の世界的成長を通じて自社の半導体を拡販させていく狙いを持っているとされる。同社は2018年からロボット向け開発環境「Isaac」を提供しており、ロボット向けAIの学習用計算資源、AI学習用の開発環境、学習させたAIで推論処理を行う計算資源を提供している。今年1月にはフィジカルAIを開発するための世界基盤モデル「Cosmos」を発表。大量のフォトリアルな物理ベースの合成データを簡単に生成する方法を提供し、開発者はCosmos WFM(世界共通基盤)をファインチューニングしてカスタムモデルを構築することが可能となった。同社は開発者によるCosmosモデルの使用例として、「ビデオ検索と理解」「物理ベースのフォトリアルな合成データ生成」「フィジカル AI モデルの開発と評価」などを提示。基盤モデル上にカスタムモデルを構築したり、強化学習のためにCosmosを使用してモデルを改善したり、特定のシミュレーションシナリオでのパフォーマンスをテストする場合などに活用できるとしている。

 3月にはロボット基盤モデル「Isaac GR00T N1」を無償で誰でも利用できるOSS(オープンソースソフトウエア)の形態で提供すると発表。同月の「GTC」ではロボット制御用AIモデル開発の重要な要素となる学習のための新ツールや、学習に必要なデータを大量生成する機能の提供なども発表された。

Gemini Roboticsの特徴

 エヌビディアと同様にフィジカルAIの開発に注力しているのがグーグルだ。ちなみにグーグルはフィジカルAIという表現を使っていない模様。同社は3月、同社の生成AIモデル「Gemini 2.0」を基盤とするロボット工学向けAIモデル「Gemini Robotics」を発表。物理的な動作を出力形式として加えた高度な視覚・言語・行動モデルであり、ロボットを直接制御する。多様な状況に適応できる能力である汎用性、指示や周囲の環境変化を迅速に理解して対応できる能力であるインタラクティブ性、繊細な作業を実行できる能力である器用さの性能を大幅に向上させた。

  グーグルの公式サイトによれば、Gemini Roboticsの特徴は以下のとおり。

・汎用性
 他の最先端の視覚・言語・行動モデルと比較して、平均して 2 倍以上の性能向上を示しており、その卓越した汎用性を実証している。

・インタラクティブ性
 直感的でインタラクティブな操作が可能。Gemini の高度な言語理解能力により、日常会話のような自然な言葉で表現された指示はもちろん、様々な言語によるコマンドも理解し、適切に応答することができる。

・器用さ
 折り紙を折る、スナックをジップロックの袋に詰めるなど、精密な操作が求められる非常に複雑な多段階のタスクに取り組むことができる。

「AlphaGo(アルファ碁)で知られるGoogle DeepMindが、ロボットにGeminiを応用したのがGemini Roboticsです。Geminiは人間との会話に関して多くの知識を持っており、それを活用して、ロボットに対して人間の言葉で命令することができるというものです。これまでロボットと人間はプログラミングコードを介してやり取りしていましたが、自然言語を介して、やり取りできるようになります。これまでロボットは人間が策定したシナリオ通りの稚拙なことしかできませんでしたが、OpenAIのChatGPTやGeminiのように、ロボットが人間からの命令の意図を理解して動作できる可能性が出てきました。

 公開されている動画をみると、Gemini Roboticsを搭載したロボットは折り紙を折ったり、弁当箱にサンドイッチを詰めたり、サラダを人間の希望に合わせて盛り付けしたりといったことまでやっています。人間の言葉の意図を理解して、これが最適だろうという行動をしています。これまで産業用ロボットは、決められたことを正確に早く行うことは得意でしたが、例えば溶接する対象のドアの位置が少しでも本来の位置からズレていると、うまく作動できませんでした。これが、位置がずれていればロボット自身が位置を調節したりして、正確な場所に溶接をしていくことになります。決められたこと以外のことでも、さまざまな条件に合わせて作業していく汎用性を備えています。例えば、人間から『きゅうりが嫌い』と言われれば、きゅうりを取り除いてサラダを盛りつけたりといったことができるようになります」(ITジャーナリストの神崎洋治氏/2025年4月18日付当サイト記事より)