Skip to main content

Heron VLM リーダーボード powered by nejumi@WandB

Vision & Languageモデルの日本語評価リーダーボードの初期バージョンです
Created on May 7|Last edited on December 25

Here's the English translated version of Heron VLM Leaderboard

Heron VLMリーダーボードとは?

本リーダーボードは、Vision & Languageモデルの評価と自動評価方法を提供することを目的としています。評価は以下のデータセットに基づいて行われます:
*Turing社との技術協力のもと、W&B Japanがリーダーボードの構築と運営を行っています。
本リーダーボードを自分で走らせたい場合(結果を公開しないことも可能)は、下記をご利用ください

What's new?

  • 2024/09/20: Qwen/Qwen2-VL-72B-Instructを追加
  • 2024/09/12: max_lengthを256から512に変更。これに伴い、評価を再実行したために順位に変動があります。
    • モデル性能を評価するに際してトークン効率の影響が大きすぎると判断したため。
  • 2024/09/12: Qwen/Qwen2-VL-7B-Instruct, Qwen/Qwen2-VL-2B-Instructを追加
  • 2024/10/28: allenai/Molmo-72B-0924, claude-3-5-sonnet-20241022を追加
  • 2024/12/26: Qwen/QVQ-72B-Previewを追加

Visual Question Answering (VQA) 総合評価



Run set
28


カラム説明

モデル間の比較

Run setの一覧から比較したモデルのペアを選んでチェックを入れてください。
レーダーチャートとLLaVA Benchテーブル、Heron Benchテーブルは連動して表示されます。これにより、任意のモデルペアのパフォーマンスプロファイルと、同じ質問に対する2つのモデルの回答の違いを同時に表示し、インタラクティブに比較することが可能です。

Run set
2


Llava Bench (in the wild) output詳細

確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["llava_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。

Run set
28


Heron Bench output詳細

確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["heron_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。

Run set
28


arXivに掲載されたスコアとの対応関係

Turing社による元文献ではGPT-4のスコアとの相対値を用いているのに対して、本リーダーボードでは絶対値を用いているという違いがあります。この点については、下図のように両者の対応関係を確認しています。
また、本リーダーボードでは日本語タスクに対する性能評価であることを考慮して、日本語で回答できなかった場合には得点にペナルティを与えるようにJudge Promptに追記を���っています。



WandB Automationsによるモデルの自動評価

TBD