画像認識AIというとどんなイメージが浮かぶでしょうか?

身近な例では、スマホの顔認証や、画像の文字をテキスト化する文字認識などに使われるAI技術が挙げられます。

画像認識AIが世に出されるには、開発段階で使用されるデータセットに大量の写真が必要です。

しかし、データセットの作成は、従来のやり方では人間の作業量が膨大になるほか、画像収集自体が困難な場合もあります。

そこで最新技術により、写真が含まれないデータセットからなる高精度な画像認識AIモデルが開発されました。

なんと、写真の代わりに、数式によって生成された画像を使用したそうです。

この技術はFormula-driven Supervised Learning(FDSL)と称され、2022年6月に産業技術総合研究所の片岡主任研究員のグループにより発表されました。

FDSL(Formula-Driven Supervised Learning)とは?

Fractal Database
Credit: Pre-training without Natural Images (IJCV / ACCV 2020 Best Paper Honorable Mention Award)

今まで画像認識AIの開発には、大量の写真によるデータセットが不可欠でした。

しかし本研究では、数式から幾何画像によるデータセットの自動生成が可能になり、事前学習を行ったところ、従来のデータセットと同等以上の精度が実現できたということです。

この技術をFDSL(Formula-Driven Supervised Learning)といいます。

いったいなぜ、数式から画像データセットを作るというユニークな手法が必要だったのでしょうか。

少なくとも、人の手で数千枚、数万枚といった大量の写真を準備する大変さはイメージできると思います。

その労力が大幅に軽減されるだけでも大きな成果なのですが、それと同時に、従来の画像認識AI開発では生じやすい問題を回避できる技術としても期待されています。

従来の方法による問題点とは具体的にどのようなものがあり、FDSLにするとどのようなメリットがあるのでしょうか。

膨大な作業コストを超削減!

画像認識AIは基本的に、あらかじめ大量の画像をインプットし、画像認識を学習させておくことで機能しています。

こうした作業は「事前学習」と呼ばれ、人間でいえば試験勉強のようなものです。

例えば、英語の試験なら「単語の暗記」や「文法問題を解く」といった勉強を経て、私たちは最終的に試験で高い点数を取ることができます。

それと同様で、画像認識AIも予測タスクを行う前に、事前学習として様々な写真を大量にインプットし、何が写っているのかを答えるという訓練を繰り返します。

なお、そのAIの答えが合っているかどうかは、予め人間がその写真に付けている「教師ラベル」によって判別されます。この学習の手法を「教師あり学習」といいます。

この教師あり学習を行うには、データセットに使用する写真を大量に収集するばかりでなく、収集したすべての写真に対し、人間が一枚ずつラベリングする作業を行わなければなりません。

100万枚以上ある写真の一枚一枚に対し「犬」「猫」など写っているもののカテゴリを人が判断し、付与する作業を想像してみてください。

 

ラベル付けイメージ
Credit: ささはら千鶴

実際のラベリング作業は、もちろん少数で行うわけではありません。

例えば、現在よく使われる1400万枚以上の写真によるデータセット「ImageNet」の作成時には、クラウドソーシングから結果的に5万人ほどが作業に参加しましたが、それでも完成までに3年かかりました。

そして、仮に数万人がラベリング作業に参加できたとして、全員が正しい知識をもってカテゴライズできているとも限りません

そのため、誤ったラベル付けを修正するためのダブルチェックや、段階に応じたデータの管理などが必要となり、時間がかかるうえに、人件費がかさみます。

そして、データセットは完璧な状態には至らず、数%は次のようなラベルの付け間違いが起こっているのも事実です。

ImageNetに含まれる誤りラベルの例
Credit: ImageNet, ささはら千鶴

このような明らかなミスがありえるのか?と言いたくなるのもわかります。

ですが実際、ウォーリーを探せのごとく、大量のデータに目を通して間違い探しを行うため、見逃しも起こり得るのでしょう。

大量の写真に対して人間が一枚ずつ手を加えるという条件では、正確性の面でも限界があるようです。

大規模な研究をしたいという気持ちがあっても、以上のような障壁があるとわかれば、研究者も簡単に手を出しづらいでしょう。

そこで、数式から画像データセットを自動生成できるFDSLの出番です。

本研究では、主に次のようなフラクタル幾何の画像が使われました。

数式から生成されるフラクタル幾何画像の例
Credit: FractalDB, ささはら千鶴

片岡研究員は、植物などフラクタルの特徴をもつ本物の自然物から着想を得たそうです。

また、幾何学的構造のなかでも、フラクタル幾何は比較的単純な数式で作れるということでした。

そして、FDSLは画像の自動生成だけでなく、同時に教師ラベルを付ける作業も自動で行ってくれます。

教師ラベルは「124」「258」などの数字として、図形のカテゴリごと自動で割り当てられます。

こうして、人間の作業コストは大幅に削減され、ラベルの誤りについても心配無用となりました。

人工の幾何学的な画像が、現実世界の画像認識に役立つなんて不思議ですよね。

AIはこの幾何画像をたくさん見て、どのようなことを理解するのでしょうか。

産業技術総合研究所の公式Twitterで、片岡主任研究員は次のようにコメントしています(一部抜粋)。

初見でイヌとネコを識別するのは難しいので、まずはイヌネコに限らず「あらゆるモノを見分けるコツ」を教え込むわけです。
モノの見方を教えるだけなら、実物ではなくモノの特徴をもった図形でもよさそうな気がしますよね?こうして研究がスタートしました。

奇想天外な発想にも思えますが、これを実行に移したのはすごいですよね。

この技術によって、作業コストのほかにも、データセットにありがちな諸問題が防げるといいます。

いったい他にどういった問題があったのか、次に見ていきましょう。