Skip to main content

Horangi: W&B Korean LLM Leaderboard 3

최신 LLM 모델의 한국어 능력을 언어이해능력과 응용능력, AI Alignment의 넓은 관점에서 평가합니다.
Created on September 29|Last edited on August 13

  • 📊 전세계 LLM 모델들의 한국어 능력을 평가합니다. 언어이해능력, 응용능력 그리고 AI Alignment의 넓은 관점에서 평가합니다.
  • 🧮 Seen/unseen문제를 회피하기 위해 few shot 평가를 도입했습니다. 최종 스코어는 0-shot평가와 few-shot평가의 평균에 의해 계산합니다.
  • 🔍 W&B의 Table기능을 이용한 심층 분석을 확인하실 수 있습니다.
  • 🎰 실시간으로 비교대상 모델을 선택할 수 있습니다.
  • 🛣️ W&B의 Report에서 실제 실행한 실험으로 이동하여 그 내용을 확인할 수 있습니다.
  • 🤫 평가 데이터로 비공개 평가를 진행하실수도 있습니다!
📮 리더보드 전반에 관한 문의는 contact-kr@wandb.com 으로 메일주십시오.

📋 본 리더보드에 모델을 게재하시기 원하시는 분은 이 양식을 클릭하여 요청해주십시오.

🗄 본 리더보드에서 사용한 평가 데이터에 접근하여 비공개 평가를 수행하고 싶으신 분은 이 양식을 클릭하여 요청해주십시오.
💡
리더보드에서 사용한 분류나 평가지표, 평가방법에 대해 더 구체적으로 알아보고 싶으신 분은 아래의 Weights & Biases 백서중 "LLM 평가 모범사례"를 확인해주세요. Weights & Biases는 그 외에도 다양한 LLM 백서를 공개하고 있습니다.



1. 평가 방법

2. 종합평가

계산 방법

  • 선택지 문제 데이터셋에서는 0-shot과 2-shot을 모두 사용하여 각 테스트 데이터의 100문항에 대한 평가를 계산하고 있습니다. 데이터셋에 대한 자세한 설명은 여기에서 확인해주세요.
  • 각각의 점수는 0에서 1까지 스케일링한 후 집계되며, 평균 점수는 1점 만점의 스코어로 산출됩니다. KoBBQ의 경우, 바이어스 점수를 사용하며, 바이어스 점수는 0에 가까울수록 편견이 없다는 뜻이므로 1-바이어스 점수를 종합 평가에 사용하고 있습니다.
  • 정의
GLP : General Language Processing (범용 언어 성능)
ALT : AI Alignment
Total AVG = (Avg. GLP + Avg. ALT)/2

결과


Run set
76


3. 모델 비교

범용 언어 성능 GLP 와 안전 성능 ALT 에 대한 각 항목별 평가 결과를 확인할 수 있습니다.
비교 대상 모델 선택을 눌러 나타나는 테이블의 👁️ 버튼을 눌러 모델을 선택하거나 선택 해제할 수 있습니다.

비교 대상 모델 선택
3




4. 한국어 특화 데이터셋 결과

(1) KMMLU

KMMLU는 인문학부터 STEM까지 45개 카테고리에 걸친 35,030개의 전문가 수준의 객관식 문항으로 구성된 한국어 벤치마크입니다. 모든 문제는 한국의 시험문제로부터 수집되어, 외국어 데이터를 번역해 만든 다른 벤치마크와는 달리 한국어의 특성과 한국의 문화적 맥락을 온전히 반영합니다.

Run set
76


실제 출력


Run set
1




(2) HAE-RAE Bench

HAE-RAE Bench 1.0은 한국어와 한국 문화에 대한 지식을 평가하기 위한 벤치마크로, 어휘, 역사, 일반 지식, 독해 네가지 영역에 걸쳐 6개의 하위 카테고리로 구성되어 있습니다.

Run set
76


실제 출력


Run set
1


(3) KoBBQ

KoBBQ는 한국 문화의 고정관념을 반영하는 사회적 편견과 그 편견의 대상을 수집하고 검증하기 위해 구축된 데이터셋입니다. 검증 메트릭은 아래와 같습니다. 정확도는 모델이 정확한 결과를 생성한 빈도이고, diff_bias는 잘못된 예측의 강도를 의미합니다.
  • acc_a: The accuracy in ambiguous contexts.
  • acc_d: The accuracy in disambiguated contexts.
  • diff_bias_a: The difference between the prediction ratios of biased answers and counter-biased answers.
  • diff_bias_d: The difference between the accuracies under biased context and under counter-biased context.
즉, 최적의 모델은 acc 1, diff_bias 0이고, 완전히 랜덤으로 대답하는 모델의 경우 정확도 1/3, diff_bias 0이며, 오직 편향된 결과만 생성하는 모델의 경우 acc_a 0, acc_d 0.5, diff_bias 1입니다.

Run set
76




5. 범용언어능력 카테고리 상세분석

[클릭하여 확장] (1) 표현 : expression

[클릭하여 확장] (2) 번역: translation

[클릭하여 확장] (3) 요약: summarization

[클릭하여 확장] (4) 정보검색: information extraction

[클릭하여 확장] (5) 논리적추론: reasoning

[클릭하여 확장] (6) 수학적추론: mathematical reasoning

[클릭하여 확장] (7) 추출: entity extraction

[클릭하여 확장] (8) 지식/질의응답: knowledge/QA

[클릭하여 확장] (9) 영어: english

[클릭하여 확장] (10) 의미해석: semantic analysis

[클릭하여 확장] (11) 구문해석: synthectic analysis

6. AI Alignment 카테고리 상세분석

[클릭하여 확장] (1) 제어성: controllability

[클릭하여 확장] (2) 윤리・도덕: ethics

[클릭하여 확장] (3) 유해성: toxicity

[클릭하여 확장] (4) 사회적편견: bias

[클릭하여 확장] (5) 진실성: truthfulness

[클릭하여 확장] (6) 강건성: robustness



Tags: Articles, LLM
Iterate on AI agents and models faster. Try Weights & Biases today.