Horangi: W&B Korean LLM Leaderboard 4
Created on November 12|Last edited on December 1
Comment

- 대규모 언어모델(LLM)의 성능이 빠르게 발전하고 활용 영역이 넓어지면서, 이제는 단순한 지표만으로 모델을 평가하기 어려워졌습니다.
- Horangi Leaderboard 4에서는 기존 벤치마크의 한계를 넘어, 모델의 세밀한 역량까지 구체적으로 들여다볼 수 있는 평가 체계를 구축하는 데 초점을 맞췄습니다.
- 이번 업데이트의 내용을 정리한 개발블로그는 이곳에서 확인하실 수 있습니다.
- 📊 전세계 LLM 모델들의 한국어 능력을 평가합니다. 언어이해능력, 응용능력 그리고 AI Alignment의 넓은 관점에서 평가합니다.
- 🎰 실시간으로 비교대상 모델을 선택할 수 있습니다.
- 🤫 평가 데이터로 비공개 평가를 진행하실수도 있습니다!
📮 리더보드 전반에 관한 문의는 contact-kr@wandb.com 으로 메일주십시오.
💡
리더보드에서 사용한 분류나 평가지표, 평가방법에 대해 더 구체적으로 알아보고 싶으신 분은 아래의 Weights & Biases 백서중 "LLM 평가 모범사례"를 확인해주세요. Weights & Biases는 그 외에도 다양한 LLM 백서를 공개하고 있습니다.

무료 백서:"대규모 언어 모델(LLM) 평가를 위한 모범 사례”
이 백서에서는 Weights & Biases가 국내 최대 규모의 LLM 일본어 평가 리더보드인 Nejumi.ai를 개발·운영해 온 경험을 바탕으로, 생성 AI·LLM 평가의 베스트 프랙티스를 공유합니다.

Develop GenAI applications with confidence using W&B Weave
Building demos of Generative AI applications is deceptively easy; getting them into production (and maintaining their high quality) is not. W&B Weave is here to help developers build and iterate on their AI applications with confidence.

Free Guide: How to Train LLMs from Scratch
In this whitepaper, we’ll share what we’ve learned from an insider’s perspective.

Deliver AI agents with confidence: Strategies, ops, tooling, and best practices
Find out how you can leverage agent ops with W&B Weave to evaluate, monitor, and iterate on your AI agents, accelerating progress toward your business goals.
1. 평가 방법

1. 범용 언어 성능 (General Language Performance)
2. 가치 정렬 성능 (ALignmenT)
2. 종합 평가
2.1 전체 모델 리더보드
2-2. 30B 이하 모델 리더보드
3. 모델 성능 비교
범용 언어 성능 GLP 와 안전 성능 ALT 에 대한 각 항목별 평가 결과를 확인할 수 있습니다.
비교 대상 모델 선택을 눌러 나타나는 테이블의 👁️ 버튼을 눌러 모델을 선택하거나 선택 해제할 수 있습니다.
4. 모델별 상세 내용 확인
W&B Weave는 모델의 추론 과정과 내부 동작을 단계별로 시각화해주는 Trace 기능을 제공합니다.
이를 통해 모델의 입출력 흐름, 토큰 단위 reasoning 패턴, 에러 지점, 성능 병목 등을 상세히 분석할 수 있습니다.
아래 상세 확인 모델 선택 테이블에서 확인을 원하시는 모델의 👁️ 를 누르신 후 각 벤치마크의 Trace를 선택하시면 모델 입출력을 상세하게 확인할 수 있습니다.
5. 카테고리별 상세 확인
5. 1. 1 GLP - 기본언어성능
5. 1. 2 GLP - 응용언어성능
5. 1. 3 GLP - 지식, 질의응답
5. 1. 4 GLP - 추론 능력
5. 1. 5 GLP - 어플리케이션 개발
5. 2. 1 ALT - 제어성능
5. 2. 2 ALT - 윤리/도덕
5. 2. 3 ALT - 유해성 방지
5. 2. 4 ALT - 편향성 방지
5. 2. 5 ALT - 환각 방지
Add a comment
Iterate on AI agents and models faster. Try Weights & Biases today.