Heron VLM リーダーボード powered by nejumi@WandB
Vision & Languageモデルの日本語評価リーダーボードの初期バージョンです
Created on May 7|Last edited on December 25
Comment

Heron VLMリーダーボードとは?
本リーダーボードは、Vision & Languageモデルの評価と自動評価方法を提供することを目的としています。評価は以下のデータセットに基づいて行われます:
- Japanese Heron Bench (Turing株式会社様)
*Turing社との技術協力のもと、W&B Japanがリーダーボードの構築と運営を行っています。
本リーダーボードを自分で走らせたい場合(結果を公開しないことも可能)は、下記をご利用ください
- 本リーダーボード全般に関するお問い合わせは、contact-jp@wandb.com にご連絡ください。
What's new?
- 2024/09/20: Qwen/Qwen2-VL-72B-Instructを追加
- 2024/09/12: max_lengthを256から512に変更。これに伴い、評価を再実行したために順位に変動があります。
- モデル性能を評価するに際してトークン効率の影響が大きすぎると判断したため。
- 2024/09/12: Qwen/Qwen2-VL-7B-Instruct, Qwen/Qwen2-VL-2B-Instructを追加
- 2024/10/28: allenai/Molmo-72B-0924, claude-3-5-sonnet-20241022を追加
- 2024/12/26: Qwen/QVQ-72B-Previewを追加
Visual Question Answering (VQA) 総合評価
Run set
28
カラム説明
モデル間の比較
Run setの一覧から比較したモデルのペアを選んでチェックを入れてください。
レーダーチャートとLLaVA Benchテーブル、Heron Benchテーブルは連動して表示されます。これにより、任意のモデルペアのパフォーマンスプロファイルと、同じ質問に対する2つのモデルの回答の違いを同時に表示し、インタラクティブに比較することが可能です。
Run set
2
Llava Bench (in the wild) output詳細
確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["llava_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。
Run set
28
Heron Bench output詳細
確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["heron_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。
Run set
28
arXivに掲載されたスコアとの対応関係
Turing社による元文献ではGPT-4のスコアとの相対値を用いているのに対して、本リーダーボードでは絶対値を用いているという違いがあります。この点については、下図のように両者の対応関係を確認しています。
また、本リーダーボードでは日本語タスクに対する性能評価であることを考慮して、日本語で回答できなかった場合には得点にペナルティを与えるようにJudge Promptに追記を行っています。

WandB Automationsによるモデルの自動評価
TBD
Add a comment