Skip to main content

Technical Report: 自動評価 VS 人手評価

Created on September 30|Last edited on February 10



背景: LLM as a judgeのLimitationと人手評価の必要性

LLMの開発者にとって、モデルの評価は非常に重要なタスクになります。Weights & Biasesは、日本語対応のLLMを複数の日本語のベンチマークに対して評価したNejumiリーダーボードを開発・運営する他、その中で得られた知見をもとに、モデルの評価についてまとめたホワイトペーパーを作成し、公開しています。

LLMの評価には、時間と労力がかかるため、GPTなどの高性能なLLMを用いた「LLM-as-a-Judge」と呼ばれる自動評価手法が頻繁に活用され、モデルの精度を手軽に測る方法として注目されています。しかし、実際に人手評価と自動評価を比較した研究において、特に正確性に関して評価の難しさが指摘されています。論文[1]の2つのモデル比較実験では、自動評価と人手評価の優劣が正反対の結果となり、特に正確性が求められるモデルにおいては大きな問題となっています。
また、LLMの開発においては、単に総合スコアで結論を出すのではなく、モデルのどの部分がどのように優れているのか、または課題があるのかを詳細に分析することが重要です。モデル提供者として、利用者に対する説明責任を果たすためにも、信頼性の高い評価結果が求められます。このような信頼性は自動評価だけでなく、人手評価の結果から得られるものが望ましいと言えます。
しかし、人手評価には多くの時間と労力が必要であり、すべての評価を人手で行うことは現実的ではありません。そのため、自動評価が役立つ部分もありますが、最終的には両者のバランスを取ることが必要です。
そこで、本レポートでは、株式会社いちからと共同で、3つのLLMに対してLLM-as-a-judgeを用いた自動評価と人手評価を実施し、両者の違いについてまとめました。このレポートを通じて、実際の評価結果に基づき、自動評価と人手評価の違いとそれぞれの特徴、およびその使い分けについて理解を深めることができます。

検証方法

評価データ

評価に際しては、本評価のために構築された「ichikara-instruction-eval」データセットを利用しました。データ数は1037件ありますが、このレポートでは100件のサンプルを用いて評価を行いました。ichikara-instruction-evalの評価データセットには、metaデータが含まれているものの、今回は"domain"にフォーカスをし、法律・ビジネス・教育・医療・経済のdomainからそれぞれ20件以上抽出されるようにサンプリングを行いました。なお、20件以上としているのは、一つのサンプルが複数のdomainを持つケースが存在しているからです。なお、サンプリングにあたっては、他の属性データの分布もできるだけ偏りがなくなるような抽出を行いました。最終的には、法律20件・ビジネス30件・経済27件・教育28件・医療20件となっています。

推論

自動評価と人手評価の違いを明確にするため、異なる特徴を持つモデルを使用し、評価を実施しました。評価対象として以下の3つのモデルを採用しています。
  • APIのモデル: gpt-4o-2024-08-06(以下、GPT-4o)
  • グローバルなオープンウェイトのモデル: meta-llama/Meta-Llama-3.1-70B-Instruct(以下、Llama-3.1)
  • Llama3を日本語に特化したオープンウェイトのモデル: tokyotech-llm/Llama-3-Swallow-70B-Instruct-v0.1(以下、LLama-3-Swallow)
推論にあたっては、vllmを活用し、チャットプロンプトのテンプレートについては、GPT-4oはデフォルトのものを採用し、Llama-3.1とLlama-3-Swallowについては、tokenizer_configに記載されているものを採用しました。
なお、2025/1時点では、https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-v0.1も出ていますが、分析時にリリースをされていなかったため、当時リリースをされていたtokyotech-llm/Llama-3-Swallow-70B-Instruct-v0.1を採用しました。LLama3のモデルは英語で回答する傾向が多く、分析対象にならなかったため、グローバルなオープンウェイトのモデルについては、tokyotech-llm/Llama-3-Swallow-70B-Instruct-v0.1とベースとなるモデルは違いますが、LLama3.1を利用しています。
💡

評価

評価項目

評価に際しては、以下の5 つの項目に関する判定と総合評価の判定を1〜5のスケール(5が最善)で実施しました。
  • 関連性: 質問に対する回答になっているか
  • 流暢性: 文法や語彙の正しさ、文章の円滑さ、読みやすさ
  • 詳細性: 多く有用なデータや情報を提供しているか
  • 正確性: 情報の正確性
  • 総合評価: 総合の評価

LLMによる自動評価

評価に際しては、openaiのgpt-4-0613を利用し、下記のプロンプトを利用しました。
[{
"role": "system",
"content": "あなたは、回答の質をチェックするための審判員です。ユーザーの指示に従って下さい。"
},
{
"role": "user",
"content": あなたは、AIアシスタントの回答を評価する評価者です。

以下の、ユーザーの質問に対する回答を評価してください。
###ユーザーの質問:
{text}

###AIアシスタントの回答:
{answer}

###評価基準:
なお、評価は以下の基準に従って、1から5の整数で評価してください(5が最高評価)。
1. 関連性: 質問に適切に答えているか
2. 正確性: 提供された情報が正確か
3. 流暢性: 日本語として自然で読みやすいか
4. 情報量: 回答が十分に詳細で有用か
5. 総合評価: 上記をもとにした総合得点
また、評価を下した理由についてついても述べてください。

###注意事項:
- 日本語以外の言語で出力された回答には低評価をつけてください。
- 偏見を避け、客観的に評価してください。
- 評価は必ず下記のJSON形式で提供してください。
- 短い回答で十分な場合に、不当に"情報量"の点数を低くしないでください。

###評価の形式
以下の形式で評価してください。
{{"総合評価": "0","関連性": 0, "正確性": 0, "流暢性": 0, "情報量": 0, "理由":<text>}}
}
]


人手評価

対象の出力結果に対して人手評価を行った。人間の判断基準はもちろんかなり揺れが生じることが考えられるため、各評価項目に対して、例も含めた丁寧なマニュアルを用意して揺れの最小化を狙った。評価の個人差を低減するために、通常は複数人で評価を行うが、今回は時間的制約から1名の評価結果を用いた。

結果と考察

人手評価をベースにしたモデルの性能評価

まず、今回使用した3つのモデルの人手評価の結果を示します。図1(左)の評価項目ごとの結果を確認すると、まずはモデル間ではGPT-4oがその他の2つのモデルよりもスコアが高いことが分かります。Llama-3.1とLlama-3-Swallowについては、同じような精度になっていることが分かります。なお、Swallowのモデルは、Llama-3をベースとしている中でもLlama-3.1と同等の精度を示しているので、Llama-3.1-Swallow系列のモデルでは精度が上がる可能性があります。傾向として、関連性と流暢性は3つのモデルで非常に高い点数となっており、これは、今回使用した3つのモデルが日本語の生成において破綻のない自然な文章で、質問に関連のある回答を生成できることを示しています。
次に、図1(右)のドメインごとの結果を確認します。この結果でも、モデル間ではGPT-4oが他の2つのモデルよりも高いスコアを記録しています。また、今回使用したichikara-instruction-evalデータセットにおいては、ドメイン間のスコア差はほとんど見られませんでした。分析に前に想定していた「ドメイン毎に差が生じる」という仮説に反した結果となりましたが、各ドメインの点数が約4点であることを考えると、より難易度が高い問題を用意した場合は差が生じる可能性はあります。
図1: 評価項目・ドメインに対する人手評価の結果

評価項目ごとにみるLLMによる自動評価と人手評価の違い

下図に、LLMによる自動評価と人手評価の評価項目ごとの平均値と一致率をレーダーチャートで示します。なお、結果は各モデルごとにそれぞれ示しています。ここで、一致率は自動評価と人手評価の双方の回答が一致していた問題の割合を示す指標です。今回は2つの評価の差が±1点以内の場合を「一致」とみなして計算をしています。緑の点が示す一致率が低い数字であると、自動評価と人手評価の差が大きいことを示しています。
図2: 評価項目ごとにみるLLMによる自動評価と人手評価の違い:このレーダーチャートは、3つのモデルの評価項目(情報量、流暢性、正確性、関連性、総合評価)について、自動評価と人手評価の平均スコアを比較しています。緑色の点は一致率です。
今回の結果から、以下の点が明らかになりました。
  • 自動評価の方が人手評価よりも甘い点数づけとなっている
    • 自動評価の平均点を示す青線が、人手評価の平均点を示すオレンジ線よりも大きい値をとる傾向が見てとれます。
  • Llama-3.1とLlama-3-Swallowでは自動評価と人手評価の結果の差は、GPT-4oよりも大きい
    • GPT-4oは、人手評価および自動評価の両方で4点以上の評価を得ており、各スコアが高得点に集中し、両者の評価に大きな差が生じていません。一方、他の2つのモデルでは満点に達しない回答がGPT-4oよりも比較的多く、スコアが1~4の範囲でばらつきます。スコアの分布については、Appendixの"モデルごとの評価項目における自動評価と人手評価の散布図"を参考にしてください。GPT-4o以外のモデルについては、このばらつきが2つの評価の結果に差異をもたらす要因となっていると考えられます。
  • 「正確性」と「総合評価」で人手評価と自動評価の差が比較的大きい
    • 「正確性」の一致率を見ると、他の項目と比べ、小さい値になっていることがわかります。例えば、Llama-3.1では60%程度しかなく、他の項目よりも低い水準になっていることが分かります。また、Appendix "モデルごとの評価項目における自動評価と人手評価の散布図"を見ると、「正確性」は、自動評価で多くが満点(5点)と評価されている一方で、人手評価では4以下に留まるサンプルが多いです。「正確性」の評価項目では、回答に含まれる情報が実際の事実に基づいているかどうかが評価されます。一見すると説得力があるものの、実際には事実に基づかない情報(ハルシネーション)を含んでいる回答を自動評価では見分けることが難しく、結果として高評価となる傾向にあります。一方、人手評価では回答内容の事実関係が綿密にチェックされるため、ハルシネーションが検出され、低評価となります。このような理由で、「正確性」において自動評価と人手評価の違いが大きくなったと考えられます。情報が正確であるかどうかの判断は、LLM-as-a-judgeで使用するモデルの知識自体を問われるので、難易度が高いことがわかります。リファレンスアンサーを設けることで、正確性の自動評価の信頼性は向上することが期待されますが、LLMのすべての回答をカバーするようなリファレンスアンサーを設けることには限度があるので、正確性において自動評価を行う場合には、そのスコアの信頼性に注視する必要があると言えます。
    • 「総合評価」においても、2つの評価の違いが比較的大きいことが分かります。この理由として、総合評価の得点の付け方に微妙な違いがあったことが挙げられます。人手評価では、総合評価以外の4つの評価項目の中で最も低いスコアに近い総合評価の得点をつける傾向があり、全体として厳しい評価となっていました。一方、自動評価では、他の4つの評価項目の平均値に近い総合評価の得点をつける傾向がありました。この違いが、全体として人手評価と自動評価で総合評価に差を生んだと考えられます。
  • 「関連性」と「流暢性」は自動評価と人手評価の差が比較的小さい
    • 「関連性」と「流暢性」に関しては、どのモデルも自動評価と人手評価でほぼ満点に近いスコアを示しており、評価間の差異が小さいことが分かります。これは3つのLLMが高い日本語能力を持ち、完璧に近い流暢な回答を質問の題材に沿って生成できているため、評価が満点近くに集中し、両評価間の違いが小さくなっていると考えられます。

人手評価において1と評価されているにも関わらず、自動評価が5と評価されているサンプルやその逆のパターンのサンプルも存在していたのですが、そうしたサンプルは興味深いため、その特筆すべき例を下記に示します。なお、各項目についてそれぞれ抽出をしたサンプルはAppendixに記載をしております。散布図については、Appendixの"モデルごとの評価項目における自動評価と人手評価の散布図"を参考にしてください。
例えば、正確性において人手評価において1と評価されているにも関わらず、自動評価が5と評価されているサンプルを見ていきましょう。
例1: domain ['ビジネス', '交通'], GPT-4oの回答, llmの評価(正確性)5, 人手評価(正確性) 1

問題
"JR東日本の社長は次のうち誰ですか?
冨田哲郎、深澤祐二、喜勢陽一、金子慎、丹羽俊介、柘植康英"

回答
"JR東日本の社長は、2023年4月1日から丹羽俊介氏が務めています。"
正解は、喜勢陽一氏であるはずですが、GPT-4oの回答は間違えています。丹羽 俊介氏はJR東海の代表取締役社長です。LLM(GPT-4o)の評価では、知識が十分でない領域においては判定ができていないことがわかります。次に人手評価が5であり、llmの評価が1の例も見てみましょう。
例2: domain ['経済', 'ビジネス'], GPT-4oの回答, llmの評価(正確性)1, 人手評価(正確性) 5

問題
""以下に挙げる銀行をネット専業の銀行とインターネットサービスのある一般の銀行に分けてください。
ソニー銀行、トマト銀行、じぶん銀行、ゆうちょ銀行、みずほ銀行、楽天銀行、三菱UFJ銀行、スルガ銀行""

回答
"ネット専業の銀行とインターネットサービスのある一般の銀行に分けると、以下のようになります。

ネット専業の銀行:
- ソニー銀行
- じぶん銀行
- 楽天銀行

インターネットサービスのある一般の銀行:
- トマト銀行
- ゆうちょ銀行
- みずほ銀行
- 三菱UFJ銀行
- スルガ銀行"

人の評価理由
"全てこの分類で正しい。"

llmの評価理由
"回答は明確で読みやすく、質問の意図を完全に捉えていますが、正確性が問題です。じぶん銀行はインターネットサービスのある一般の銀行に分類されます。また、トマト銀行という一般的に知られた銀行名は存在しないため、それがネット専業銀行か一般銀行のどちらであるべきか判断することは不可能です。このため、正確性の評価は低いです。"
実際には、トマト銀行は存在し、じぶん銀行はインターネットサービスですが、その正確な判断がLLM(GPT-4o)にはできていないことがわかります。正確性については、自動評価に利用するLLMが把握しているかどうかが影響をしてきますが、こうした点を考慮した自動評価体系の構築が重要となります。

ドメインごとのLLMによる自動評価と人手評価の違い

ドメインごとに評価の違いがあるかどうかを確認するために、同様の分析を行いました。その結果を下図に示しています。なお、結果は各モデルごとにそれぞれ示しています。

図3: ドメインごとにみるLLMによる自動評価と人手評価の違い -ドメイン(法律、ビジネス、経済、教育、医療)ごとについて、3つのモデルの自動評価と人手評価の「総合評価」の平均スコアを比較しています。緑色の点は一致率を示しています。

  • 自動評価の方が人手評価よりも甘い点数づけとなっている
    • 評価項目ごとの結果と同様に、自動評価の平均点を示す青線が、人手評価の平均点を示すオレンジ線よりも大きい値をとる傾向が見てとれます
  • Llama-3.1とLlama-3-Swallowの自動評価と人手評価の差は、GPT-4oの差よりも大きい
    • 評価項目ごとの結果と同様に、ドメインごとに見てもGPT-4oの評価は満点付近に集中していますが、他の二つのモデルではそうではない結果となっていました。そのため、GPT-4oでは自動評価と人手評価の差が小さく、他の二つのモデルでは差が大きいと考えられます。また、各ドメインのスコアは評価項目の「総合評価」の平均値を使用していますが、前述のようにこの指標は基準の曖昧さがあり、「総合評価」を使ったことが差を大きくしている要因の一つと考えられます。
  • 3つのモデルの結果間で、特定のドメインで一致率が低い傾向は見られない
    • 特定のドメインで一致率が低くなる仮説がありましたが、3つのモデルの結果だけではそのような傾向は見られませんでした。ドメインではなく、正確性などの評価の項目の方が人手評価と自動評価の差という観点から重要である可能性を示唆しています。

評価項目ごとの結果同様に、自動評価と人手評価の結果が大きく食い違っているサンプルがあります。その特筆すべき例を各項目ごとに下記に示します。なお、全てのドメインごとの例についてはAppendixに掲載をしています。
例1: domain ["教育", "語学"], Llama-3-Swallowの回答, llmの評価(総合評価)5, 人手評価(総合評価) 1

問題
"以下の文章を小学生向けにわかりやすくして下さい。

教育とは、知識やスキル、価値観、文化などを個人や社会に伝え、次の世代に引き継ぐプロセスや体系的な活動です。このプロセスは、学校や大学などの形式的な機関だけでなく、家庭、コミュニティ、職場など、さまざまな場面で行われます。
教育の目的は多岐にわたりますが、主なものには以下のようなものがあります。
まず第一に、知識の伝達があります。教育は、言語、数学、科学、歴史などの知識を伝える手段であり、個人が世界を理解し、問題を解決し、自己を発展させるための基盤を提供します。
第二に、教育は視野を広げ、価値観や倫理の形成を促します。
第三に、社会的責任や共同生活に関する理解を深め、学習者に社会の一員としての役割を理解させます。"

回答
"教育とは、知識や技能、価値観、文化などを人々に教え、次の世代に引き継ぐプロセスや活動です。学校や大学などの場所だけでなく、家庭やコミュニティ、職場など、様々な場所で行われます。

教育の目的は多様ですが、主なものには以下のようなものがあります。
1. 知識の伝達: 教育は、言語、数学、科学、歴史などの知識を教える手段であり、個人が世界を理解し、問題を解決し、自己を発展させるための基盤を提供します。
2. 視野を広げ、価値観や倫理の形成を促す: 教育は、学習者に新しい考え方や価値観を教え、社会的責任や共同生活に関する理解を深めます。
3. 社会的責任や共同生活に関する理解を深め、学習者に社会の一員としての役割を理解させる: 教育は、学習者に社会的責任や共同生活に関する理解を深め、社会の一員としての役割を理解させます。"

人の評価理由
"問題で求められているような改変を行っていない。"

llmの評価理由
"AIの回答は質問と完全に関連しており、日本語としても自然です。また、指示通り、言葉も小学生でも理解しやすいものに変換されています。ただし、小学生向けとは言え、いくつかの複雑な概念(「視野を広げ、価値観や倫理の形成を促す」、「社会的責任や共同生活に関する理解を深める」など)が含まれているため、正確性と情報量を一部減点しました。”
Llama-3-Swallowによって出力された結果は、確かに回答にはなっているものの、ほとんど小学生にわかるような形への改変にはなっていないことがわかります。人手で見ると小学生に向けに噛み砕いた改変があまり行われていないことがわかりますが、gpt-4oを用いた自動評価ではこの点における評価が甘くなっていることがわかります。全体として自動評価の方が甘い評価になっていますが、開発したいサービスに合わせた所望のニュアンスの回答になっているかどうかの判断をしたい場合には、人手による評価も導入しつつ、評価を進めていく必要があるでしょう。

まとめ

本レポートでは、3つのLLMに対して自動評価と人手評価を行い、その結果を比較・分析しました。今回の結果から分かったことを下記にまとめます。
  • 評価項目ごとの結果ではGPT-4oが他の2つのモデルよりも高い人手評価のスコアを得た結果となりました。関連性と流暢性の点で3つのモデルとも高い人手評価を受けており、これはどのモデルも日本語で質の高い、自然な回答を生成できる能力を持っていることを示しています。
  • 一方、全体的に、自動評価の方が人手評価よりも高めのスコアをつける傾向が見られました。
  • GPT-4oは各問題に対して完璧に近い回答を生成するため、自動評価と人手評価のスコアが満点付近に集中し、評価方法での違いが小さい結果となりました。問題が難しくなった場合に、同様の傾向が得られるかの確認は必要です。
  • 評価項目ごとに分析すると、「関連性」と「流暢性」では自動評価と人手評価にほとんど違いが見られない結果となりました。これは、全てのモデルが非常に自然な日本語を質問に沿って生成しており、自動評価と人手評価の両方で満点近い結果が得られたためです。一方、「総合評価」と「正確性」の項目では、評価間の違いが現れました。「総合評価」では、人手評価が最低値を重視するのに対し、自動評価は平均値を重視する傾向があったためであると考えられ、自動評価の計算方法を見直すことで、差異を縮小できる可能性があります。「正確性」の評価における差異は、知識を問う問題の評価が難しいことを示唆しています。リファレンスアンサーを設けることで、正確性の自動評価の信頼性は向上することが期待されますが、LLMのすべての回答をカバーするようなリファレンスアンサーを設けることには限度があるので、正確性において自動評価を行う場合には、そのスコアの信頼性に注視する必要があると言えます。
  • ドメイン別の分析では、3つのモデルの結果間で、特定のドメインで一致率が低い傾向を見ることはできず、ドメインではなく、正確性などの評価の項目の方が人手評価と自動評価の差という観点から重要である可能性を示唆しています。また、正確性などの評価項目によらず、「以下の文章を小学生向けにわかりやすくして下さい。」のような質問の意図に従っているかどうかの細かい判断もLLM-as-a-judgeが苦手とする領域であることがわかりました。

LLM-as-a-judgeを適用することで、評価が高速になりますが、本レポートが示すように、正確性の判断や精度の高い細かいニュアンスの評価においては人手評価が必要になってきます。本レポートのAppendixを含め、自動評価がワークしづらい具体例が、自動評価のプロンプトなどの改善や人手評価が特に必要になる場面の判断において参考になれば幸いです。

Reference

[1] 関根聡, 小島淳嗣, 貞光九月, 北岸郁雄. "LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析", 言語処理学会第30回年次大会発表論文集, pp.937-942, 2024

Appendix

モデルごとの評価項目における自動評価と人手評価の散布図

図4: 評価項目ごとの人手評価と自動評価のスコア分布 :この散布図は、3つのモデルに対する評価項目ごとに、自動評価スコア(横軸)と人手評価スコア(縦軸)をプロットしたものです。赤い対角線に近いほど、両者の評価が一致していることを示し、点が離れているほど評価に差異があることを示しています。

モデルごとの各ドメインにおける自動評価と人手評価の散布図

図5: ドメインごとの人手評価と自動評価のスコア分布 -こちらの散布図は、ドメインごとに、自動評価スコア(横軸)と人手評価スコア(縦軸)をプロットしたものです。赤い対角線に近いほど、両者の評価が一致していることを示し、点が離れているほど評価に差異があることを示しています。


評価項目ごとの人手評価と自動評価の乖離が大きいサンプルの例

人手評価において1と評価されているにも関わらず、自動評価が5と評価されているサンプルやその逆のパターンのサンプルを評価項目ごとに以下に示します。

正確性の深掘り

情報量の深掘り

関連性の深掘り

流調性の深掘り

ドメインごとの人手評価と自動評価の乖離が大きいサンプルの例

人手評価において1と評価されているにも関わらず、自動評価が5と評価されているサンプルやその逆のパターンのサンプルをドメインごとに以下に示します。

法律の深掘り

ビジネスの深掘り

経済の深掘り

教育の深掘り

医療の深掘り