Jaster Dataset を使った評価における考察
注目のLLMモデルの日本語能力を言語理解と生成能力の両側面から評価
Created on January 12|Last edited on January 18
Comment
このレポートは、llm-jp-evalのデータセットや評価方法について問題提起をまとめたものである(2023/1/12時点)。
llm-jp-evalの中で常に点数が低くなる傾向にあるカテゴリ
llm-jp-evalのカテゴリを見ると、EL・FA・QAが他と比べて圧倒的に低い傾向にある。
Model list
68
例えば、最も精度た高いモデルに絞ってみた時のレーダーチャートが下記である。可視化すると結果は歴然。その理由を深掘りしてみる。
Model list
5
データごとの深掘り
EL (Entity Linking) : chABSA(set f1)
chABSA
QA (Question Answering): JEMHopQA(char f1), NIILC(char f1)
JEMHopQA
NIILC
FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))
wiki_reading
wiki_ner
wiki_nerの例
### 指示:与えられたテキストから固有表現(組織名、人名、地名、固有物名、日付表現、時刻表現、金額表現、割合表現)を全て抽出してください。回答には「固有表現1(種類1) 固有表現2(種類2)」のように固有表現の種類も含めてください。### 入力:オーストラリア・ドル(英語: Australian Dollar)は、オーストラリア連邦で用いられる通貨の名称である。通貨コードはAUDであり、A$、豪ドルなどと称する。なお、オーストラリア領土以外では、ポリネシアのナウル・ツバル・キリバスでも用いられている。### 応答:
gpt-4のdev dataに対する出力例
Model list
1
考察
文になっていないので、部分的にあっていてもsetf1が0
提案
まずは答えをsetf1に対応できるようにする。
wiki_dependency
wiki_pas
wiki_coreference
Appendix 評価タスクのデータセット補足
Add a comment