Horangi: W&B Korean LLM Leaderboard 3
최신 LLM 모델의 한국어 능력을 언어이해능력과 응용능력, AI Alignment의 넓은 관점에서 평가합니다.
Created on September 29|Last edited on August 13
Comment

- 📊 전세계 LLM 모델들의 한국어 능력을 평가합니다. 언어이해능력, 응용능력 그리고 AI Alignment의 넓은 관점에서 평가합니다.
- 🧮 Seen/unseen문제를 회피하기 위해 few shot 평가를 도입했습니다. 최종 스코어는 0-shot평가와 few-shot평가의 평균에 의해 계산합니다.
- 🎰 실시간으로 비교대상 모델을 선택할 수 있습니다.
- 🤫 평가 데이터로 비공개 평가를 진행하실수도 있습니다!
📮 리더보드 전반에 관한 문의는 contact-kr@wandb.com 으로 메일주십시오.
💡
리더보드에서 사용한 분류나 평가지표, 평가방법에 대해 더 구체적으로 알아보고 싶으신 분은 아래의 Weights & Biases 백서중 "LLM 평가 모범사례"를 확인해주세요. Weights & Biases는 그 외에도 다양한 LLM 백서를 공개하고 있습니다.

무료 백서:"대규모 언어 모델(LLM) 평가를 위한 모범 사례”
이 백서에서는 Weights & Biases가 국내 최대 규모의 LLM 일본어 평가 리더보드인 Nejumi.ai를 개발·운영해 온 경험을 바탕으로, 생성 AI·LLM 평가의 베스트 프랙티스를 공유합니다.

Develop GenAI applications with confidence using W&B Weave
Building demos of Generative AI applications is deceptively easy; getting them into production (and maintaining their high quality) is not. W&B Weave is here to help developers build and iterate on their AI applications with confidence.

Free Guide: How to Train LLMs from Scratch
In this whitepaper, we’ll share what we’ve learned from an insider’s perspective.

Deliver AI agents with confidence: Strategies, ops, tooling, and best practices
Find out how you can leverage agent ops with W&B Weave to evaluate, monitor, and iterate on your AI agents, accelerating progress toward your business goals.
1. 평가 방법
2. 종합평가
계산 방법
- 선택지 문제 데이터셋에서는 0-shot과 2-shot을 모두 사용하여 각 테스트 데이터의 100문항에 대한 평가를 계산하고 있습니다. 데이터셋에 대한 자세한 설명은 여기에서 확인해주세요.
- 각각의 점수는 0에서 1까지 스케일링한 후 집계되며, 평균 점수는 1점 만점의 스코어로 산출됩니다. KoBBQ의 경우, 바이어스 점수를 사용하며, 바이어스 점수는 0에 가까울수록 편견이 없다는 뜻이므로 1-바이어스 점수를 종합 평가에 사용하고 있습니다.
- 정의
GLP : General Language Processing (범용 언어 성능)
ALT : AI Alignment
Total AVG = (Avg. GLP + Avg. ALT)/2
결과
Run set
76
3. 모델 비교
범용 언어 성능 GLP 와 안전 성능 ALT 에 대한 각 항목별 평가 결과를 확인할 수 있습니다.
비교 대상 모델 선택을 눌러 나타나는 테이블의 👁️ 버튼을 눌러 모델을 선택하거나 선택 해제할 수 있습니다.
비교 대상 모델 선택
3
4. 한국어 특화 데이터셋 결과
(1) KMMLU
KMMLU는 인문학부터 STEM까지 45개 카테고리에 걸친 35,030개의 전문가 수준의 객관식 문항으로 구성된 한국어 벤치마크입니다. 모든 문제는 한국의 시험문제로부터 수집되어, 외국어 데이터를 번역해 만든 다른 벤치마크와는 달리 한국어의 특성과 한국의 문화적 맥락을 온전히 반영합니다.
Run set
76
실제 출력
Run set
1
(2) HAE-RAE Bench
HAE-RAE Bench 1.0은 한국어와 한국 문화에 대한 지식을 평가하기 위한 벤치마크로, 어휘, 역사, 일반 지식, 독해 네가지 영역에 걸쳐 6개의 하위 카테고리로 구성되어 있습니다.
Run set
76
실제 출력
Run set
1
(3) KoBBQ
KoBBQ는 한국 문화의 고정관념을 반영하는 사회적 편견과 그 편견의 대상을 수집하고 검증하기 위해 구축된 데이터셋입니다. 검증 메트릭은 아래와 같습니다. 정확도는 모델이 정확한 결과를 생성한 빈도이고, diff_bias는 잘못된 예측의 강도를 의미합니다.
- acc_a: The accuracy in ambiguous contexts.
- acc_d: The accuracy in disambiguated contexts.
- diff_bias_a: The difference between the prediction ratios of biased answers and counter-biased answers.
- diff_bias_d: The difference between the accuracies under biased context and under counter-biased context.
즉, 최적의 모델은 acc 1, diff_bias 0이고, 완전히 랜덤으로 대답하는 모델의 경우 정확도 1/3, diff_bias 0이며, 오직 편향된 결과만 생성하는 모델의 경우 acc_a 0, acc_d 0.5, diff_bias 1입니다.
Run set
76
5. 범용언어능력 카테고리 상세분석
[클릭하여 확장] (1) 표현 : expression
[클릭하여 확장] (2) 번역: translation
[클릭하여 확장] (3) 요약: summarization
[클릭하여 확장] (4) 정보검색: information extraction
[클릭하여 확장] (5) 논리적추론: reasoning
[클릭하여 확장] (6) 수학적추론: mathematical reasoning
[클릭하여 확장] (7) 추출: entity extraction
[클릭하여 확장] (8) 지식/질의응답: knowledge/QA
[클릭하여 확장] (9) 영어: english
[클릭하여 확장] (10) 의미해석: semantic analysis
[클릭하여 확장] (11) 구문해석: synthectic analysis
6. AI Alignment 카테고리 상세분석
[클릭하여 확장] (1) 제어성: controllability
[클릭하여 확장] (2) 윤리・도덕: ethics
[클릭하여 확장] (3) 유해성: toxicity
[클릭하여 확장] (4) 사회적편견: bias
[클릭하여 확장] (5) 진실성: truthfulness
[클릭하여 확장] (6) 강건성: robustness
Add a comment
Iterate on AI agents and models faster. Try Weights & Biases today.