Skip to main content

Jaster Dataset を使った評価における考察

注目のLLMモデルの日本語能力を言語理解と生成能力の両側面から評価
Created on January 12|Last edited on January 18
このレポートは、llm-jp-evalのデータセットや評価方法について問題提起をまとめたものである(2023/1/12時点)。

llm-jp-evalの中で常に点数が低くなる傾向にあるカテゴリ

llm-jp-evalのカテゴリを見ると、EL・FA・QAが他と比べて圧倒的に低い傾向にある。

Oops, something went wrong. If this keeps happening, message support@wandb.com with a link to this page
Model list
68

例えば、最も精度た高いモデルに絞ってみた時のレーダーチャートが下記である。可視化すると結果は歴然。その理由を深掘りしてみる。

Model list
5


データごとの深掘り

EL (Entity Linking) : chABSA(set f1)

chABSA

QA (Question Answering): JEMHopQA(char f1), NIILC(char f1)

JEMHopQA

NIILC

FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))

wiki_reading

wiki_ner

wiki_nerの例
### 指示:
与えられたテキストから固有表現(組織名、人名、地名、固有物名、日付表現、時刻表現、金額表現、割合表現)を全て抽出してください。回答には「固有表現1(種類1) 固有表現2(種類2)」のように固有表現の種類も含めてください。

### 入力:
オーストラリア・ドル(英語: Australian Dollar)は、オーストラリア連邦で用いられる通貨の名称である。通貨コードはAUDであり、A$、豪ドルなどと称する。なお、オーストラリア領土以外では、ポリネシアのナウル・ツバル・キリバスでも用いられている。

### 応答:
gpt-4のdev dataに対する出力例

Model list
1



考察
文になっていないので、部分的にあっていてもsetf1が0
提案
まずは答えをsetf1に対応できるようにする。


wiki_dependency

wiki_pas

wiki_coreference

Appendix 評価タスクのデータセット補足