
Image Credits:iAsk.Ai
人間の専門家を超える85.85%という高い精度を達成
この有料プラン「iAsk Pro」はMMLU Proにて最高スコアを獲得し、他のすべてのLLMモデルを上回った。総合スコア第1位、すべての分野において第1位のAIとしてリストされた。
MMLU-Proは、言語理解モデルをより広範で難易度の高いタスクで評価するために設計された拡張ベンチマーク。生物学、ビジネス、化学、コンピュータサイエンス、経済学、工学、健康学、歴史学、法学、数学、哲学、物理学、心理学、その他を含む14の多様な分野にわたる、学術試験や教科書から厳密にキュレーションされた1万2,000問以上の問題で構成されている。

Image Credits:iAsk.Ai
また、iAsk Proはエキスパート AGI(汎用人工知能)と同等のレベルに達した初めてのAIだ。これは、測定されたすべての主題/タスクにおいて、平均して人間の専門家の上位10%を超える精度であることを意味する。
(文・Haruka Isobe)