Heron VLM リーダーボード powered by nejumi@WandB

Vision & Languageモデルの日本語評価リーダーボードの初期バージョンです
Yuya Yamamoto, Kento Sasaki, Yu Yamaguchi
Created on May 7|Last edited on December 25
Comment
﻿
﻿
﻿Here's the English translated version of Heron VLM Leaderboard
Heron VLMリーダーボードとは？本リーダーボードは、Vision & Languageモデルの評価と自動評価方法を提供することを目的としています。評価は以下のデータセットに基づいて行われます：
﻿Japanese Heron Bench (Turing株式会社様)
﻿Llava Bench (in the wild) 
*Turing社との技術協力のもと、W&B Japanがリーダーボードの構築と運営を行っています。
本リーダーボードを自分で走らせたい場合（結果を公開しないことも可能）は、下記をご利用ください
﻿https://github.com/wandb/heron-vlm-leaderboard﻿
本リーダーボード全般に関するお問い合わせは、contact-jp@wandb.com にご連絡ください。
What's new?2024/09/20: Qwen/Qwen2-VL-72B-Instructを追加
2024/09/12: max_lengthを256から512に変更。これに伴い、評価を再実行したために順位に変動があります。
モデル性能を評価するに際してトークン効率の影響が大きすぎると判断したため。
2024/09/12: Qwen/Qwen2-VL-7B-Instruct, Qwen/Qwen2-VL-2B-Instructを追加
2024/10/28: allenai/Molmo-72B-0924, claude-3-5-sonnet-20241022を追加
2024/12/26: Qwen/QVQ-72B-Previewを追加
Visual Question Answering (VQA) 総合評価﻿
﻿
Run set28
﻿
カラム説明
モデル間の比較Run setの一覧から比較したモデルのペアを選んでチェックを入れてください。
レーダーチャートとLLaVA Benchテーブル、Heron Benchテーブルは連動して表示されます。これにより、任意のモデルペアのパフォーマンスプロファイルと、同じ質問に対する2つのモデルの回答の違いを同時に表示し、インタラクティブに比較することが可能です。
﻿
Run set2
﻿
Llava Bench (in the wild) output詳細確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["llava_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい（参考: queryの一般的な解説記事）。
﻿
Run set28
﻿
Heron Bench output詳細確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["heron_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい（参考: queryの一般的な解説記事）。
﻿
Run set28
﻿
arXivに掲載されたスコアとの対応関係Turing社による元文献で��GPT-4のスコアとの相対値を用いているのに対して、本リーダーボードでは絶対値を用いているという違いがあります。この点については、下図のように両者の対応関係を確認しています。
また、本リーダーボードでは日本語タスクに対する性能評価であることを考慮して、日本語で回答できなかった場合には得点にペナルティを与えるようにJudge Promptに追記を行っています。
﻿
﻿
WandB Automationsによるモデルの自動評価TBD
﻿
﻿
Add a comment