Horangi: W&B Korean LLM Leaderboard 4
Created on December 1|Last edited on December 1
Comment

- As large language models (LLMs) rapidly advance and expand into new application areas, it has become increasingly difficult to evaluate them using simple metrics alone.
- In Horangi Leaderboard 4, we focused on building an evaluation framework that goes beyond traditional benchmarks—one that lets you closely examine a model’s fine-grained capabilities.
- You can find a detailed breakdown of this update in our developer blog here.
- 📊 We evaluate the Korean-language proficiency of LLMs from around the world, measuring language understanding, applied reasoning, and AI alignment across a broad set of criteria.
- 🔍 Explore in-depth analyses powered by W&B Weave.
- 🎰 Select comparison models in real time.
- 🛣️ Jump directly to the actual experiments run in W&B Reports to examine their details.
📮 For general inquiries about the leaderboard, please email contact-kr@wandb.com
📋 If you would like to have your model added to this leaderboard, please click this form to submit a request.
🗄 If you wish to access the evaluation data used in this leaderboard and run private evaluations, please click this form to request access.
💡
If you’d like to learn more about the categories, metrics, or evaluation methods used in the leaderboard, please refer to the “Best Practices for LLM Evaluation” whitepaper from Weights & Biases below.

무료 백서:"대규모 언어 모델(LLM) 평가를 위한 모범 사례”
이 백서에서는 Weights & Biases가 국내 최대 규모의 LLM 일본어 평가 리더보드인 Nejumi.ai를 개발·운영해 온 경험을 바탕으로, 생성 AI·LLM 평가의 베스트 프랙티스를 공유합니다.

Develop GenAI applications with confidence using W&B Weave
Building demos of Generative AI applications is deceptively easy; getting them into production (and maintaining their high quality) is not. W&B Weave is here to help developers build and iterate on their AI applications with confidence.

Free Guide: How to Train LLMs from Scratch
In this whitepaper, we’ll share what we’ve learned from an insider’s perspective.

Deliver AI agents with confidence: Strategies, ops, tooling, and best practices
Find out how you can leverage agent ops with W&B Weave to evaluate, monitor, and iterate on your AI agents, accelerating progress toward your business goals.
1. 평가 방법

1. 범용 언어 성능 (General Language Performance)
2. 가치 정렬 성능 (ALignmenT)
2. 종합 평가
2.1 전체 모델 리더보드
2-2. 30B 이하 모델 리더보드
3. 모델 성능 비교
범용 언어 성능 GLP 와 안전 성능 ALT 에 대한 각 항목별 평가 결과를 확인할 수 있습니다.
비교 대상 모델 선택을 눌러 나타나는 테이블의 👁️ 버튼을 눌러 모델을 선택하거나 선택 해제할 수 있습니다.
4. 모델별 상세 내용 확인
W&B Weave는 모델의 추론 과정과 내부 동작을 단계별로 시각화해주는 Trace 기능을 제공합니다.
이를 통해 모델의 입출력 흐름, 토큰 단위 reasoning 패턴, 에러 지점, 성능 병목 등을 상세히 분석할 수 있습니다.
아래 상세 확인 모델 선택 테이블에서 확인을 원하시는 모델의 👁️ 를 누르신 후 각 벤치마크의 Trace를 선택하시면 모델 입출력을 상세하게 확인할 수 있습니다.
5. 카테고리별 상세 확인
5. 1. 1 GLP - 기본언어성능
5. 1. 2 GLP - 응용언어성능
5. 1. 3 GLP - 지식, 질의응답
5. 1. 4 GLP - 추론 능력
5. 1. 5 GLP - 어플리케이션 개발
5. 2. 1 ALT - 제어성능
5. 2. 2 ALT - 윤리/도덕
5. 2. 3 ALT - 유해성 방지
5. 2. 4 ALT - 편향성 방지
5. 2. 5 ALT - 환각 방지
Add a comment
Tags: Cat v Dog
Iterate on AI agents and models faster. Try Weights & Biases today.