Skip to main content

Jaster Dataset を使った評価における考察

注目のLLMモデルの日本語能力を言語理解と生成能力の両側面から評価
Created on January 12|Last edited on January 18
このレポートは、llm-jp-evalのデータセットや評価方法について問題提起をまとめたものである(2023/1/12時点)。

llm-jp-evalの中で常に点数が低くなる傾向にあるカテゴリ

llm-jp-evalのカテゴリを見ると、EL・FA・QAが他と比べて圧倒的に低い傾向にある。

0.0073
0
0.011
0
0
0
0.0385
0.0019
0.2965
0.0029
0.06
0
0.44
0.572
0.1893
0.8114
0.1491
0.0143
0.0589
0
0.04
0.348
0.1063
0.476
AVG
EL
FA
MC
MR
NLI
QA
RC
chabsa_set_f1
jamp_exact_match
janli_exact_match
jcommonsenseqa_exact_match
jemhopqa_char_f1
jnli_exact_match
jsem_exact_match
jsick_exact_match
jsquad_char_f1
mawps_exact_match
niilc_char_f1
wiki_coreference_set_f1
wiki_dependency_set_f1
wiki_ner_set_f1
wiki_pas_set_f1
wiki_reading_char_f1
basemodel_name
model_type
instruction_tuning_method
instruction_tuning_data
num_few_shots
llm-jp-eval-version
data_type
top_p
top_k
temperature
repetition_penalty
1
-
2
-
3
-
4
5
6
7
8
9
10
11
12
13
AVG_jaster
Model list
68

例えば、最も精度た高いモデルに絞ってみた時のレーダーチャートが下記である。可視化すると結果は歴然。その理由を深掘りしてみる。

Model list
5


データごとの深掘り

EL (Entity Linking) : chABSA(set f1)

chABSA

QA (Question Answering): JEMHopQA(char f1), NIILC(char f1)

JEMHopQA

NIILC

FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))

wiki_reading

wiki_ner

wiki_nerの例
### 指示:
与えられたテキストから固有表現(組織名、人名、地名、固有物名、日付表現、時刻表現、金額表現、割合表現)を全て抽出してください。回答には「固有表現1(種類1) 固有表現2(種類2)」のように固有表現の種類も含めてください。

### 入力:
オーストラリア・ドル(英語: Australian Dollar)は、オーストラリア連邦で用いられる通貨の名称である。通貨コードはAUDであり、A$、豪ドルなどと称する。なお、オーストラリア領土以外では、ポリネシアのナウル・ツバル・キリバスでも用いられている。

### 応答:
gpt-4のdev dataに対する出力例

Model list
1



考察
文になっていないので、部分的にあっていてもsetf1が0
提案
まずは答えをsetf1に対応できるようにする。


wiki_dependency

wiki_pas

wiki_coreference

Appendix 評価タスクのデータセット補足

List<Maybe<File<(table)>>>