- ML実験管理プラットフォームを提供するWeights & Biases Japanと連携 -
完全自動運転車両の開発に取り組むTuring株式会社(東京都品川区、代表取締役:山本 一成、以下、チューリング)は、ML実験管理プラットフォームを提供するWeights & Biases Japan株式会社(以下、W&B Japan)が本日公開したVision-Languageモデル(以下、VLM)の評価のためのリーダーボード「Heron VLMリーダーボード」に技術提供を行いました。公開時点では、15を超えるVLMでHeron-Benchを含む日本語VLM評価による比較が可能になっています。
「Heron VLMリーダーボード」概要
本リーダーボードは、完全自動運転の実現に向けたマルチモーダル生成AI「Heron」を開発するチューリングと国内最大級のLLMリーダーボード「Nejumi LLMリーダーボード」を運営するW&B Japanの知見を合わせて開発しました。
チューリング独自開発の日本語VLM性能評価ベンチマーク「Heron Bench」およびVLMの評価のために世界で広く使われている「LLaVA Bench (In-the-Wild)」を組み合わせた総合評価により、現実世界に即した複雑な画像を用いた評価だけでなく、日本の文化的文脈に根差した評価を可能にしています。
URL:http://vlm.nejumi.ai/
インタラクティブにモデル評価結果を分析
Heron VLMリーダーボードは、Weights & Biases プラットフォームの実験管理機能を活用することで評価の再現性とトレーサビリティを担保しているほか、よりインタラクティブに評価結果を表示し、その場で分析することが可能です。平均スコアをランキング表示するだけでなく、それぞれのモデルがどのような特徴を有しているのかを捉えることができるよう設計されており、各評価軸における性能を複数のモデル間で比較するレーダーチャートや、一つ一つの評価タスクにおける入出力を可視化するテーブルなどが含まれています。
「Heron Bench」について
チューリングが独自開発した、日本語VLMの性能を評価するための汎用的なベンチマークです。Conversation、Detail、Complexの3つのカテゴリーを設定した日本特有の画像と質問のペアデータセットで構成されており、日本語VLMの性能を詳細に分析することが可能です。
URL:https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench