Skip to main content

Horangi: W&B Korean LLM Leaderboard 4

Created on December 1|Last edited on December 1

  • As large language models (LLMs) rapidly advance and expand into new application areas, it has become increasingly difficult to evaluate them using simple metrics alone.
  • In Horangi Leaderboard 4, we focused on building an evaluation framework that goes beyond traditional benchmarks—one that lets you closely examine a model’s fine-grained capabilities.
  • You can find a detailed breakdown of this update in our developer blog here.
  • 📊 We evaluate the Korean-language proficiency of LLMs from around the world, measuring language understanding, applied reasoning, and AI alignment across a broad set of criteria.
  • 🔍 Explore in-depth analyses powered by W&B Weave.
  • 🎰 Select comparison models in real time.
  • 🛣️ Jump directly to the actual experiments run in W&B Reports to examine their details.
  • 🤫 You can also run private evaluations using your own assessment data.
📮 For general inquiries about the leaderboard, please email contact-kr@wandb.com

📋 If you would like to have your model added to this leaderboard, please click this form to submit a request.

🗄 If you wish to access the evaluation data used in this leaderboard and run private evaluations, please click this form to request access.
💡
If you’d like to learn more about the categories, metrics, or evaluation methods used in the leaderboard, please refer to the “Best Practices for LLM Evaluation” whitepaper from Weights & Biases below.


1. 평가 방법



1. 범용 언어 성능 (General Language Performance)

2. 가치 정렬 성능 (ALignmenT)

2. 종합 평가

2.1 전체 모델 리더보드



Run set
0


2-2. 30B 이하 모델 리더보드

3. 모델 성능 비교

범용 언어 성능 GLP 와 안전 성능 ALT 에 대한 각 항목별 평가 결과를 확인할 수 있습니다.
비교 대상 모델 선택을 눌러 나타나는 테이블의 👁️ 버튼을 눌러 모델을 선택하거나 선택 해제할 수 있습니다.

비교 대상 모델 선택
0


4. 모델별 상세 내용 확인

W&B Weave는 모델의 추론 과정과 내부 동작을 단계별로 시각화해주는 Trace 기능을 제공합니다.
이를 통해 모델의 입출력 흐름, 토큰 단위 reasoning 패턴, 에러 지점, 성능 병목 등을 상세히 분석할 수 있습니다.
아래 상세 확인 모델 선택 테이블에서 확인을 원하시는 모델의 👁️ 를 누르신 후 각 벤치마크의 Trace를 선택하시면 모델 입출력을 상세하게 확인할 수 있습니다.

상세 확인 모델 선택
0


5. 카테고리별 상세 확인

5. 1. 1 GLP - 기본언어성능

5. 1. 2 GLP - 응용언어성능

5. 1. 3 GLP - 지식, 질의응답

5. 1. 4 GLP - 추론 능력

5. 1. 5 GLP - 어플리케이션 개발

5. 2. 1 ALT - 제어성능

5. 2. 2 ALT - 윤리/도덕

5. 2. 3 ALT - 유해성 방지

5. 2. 4 ALT - 편향성 방지

5. 2. 5 ALT - 환각 방지

Tags: Cat v Dog
Iterate on AI agents and models faster. Try Weights & Biases today.