Skip to main content

Horangi: W&B Korean LLM Leaderboard 4

Created on November 12|Last edited on December 1

  • 대규모 언어모델(LLM)의 성능이 빠르게 발전하고 활용 영역이 넓어지면서, 이제는 단순한 지표만으로 모델을 평가하기 어려워졌습니다.
  • Horangi Leaderboard 4에서는 기존 벤치마크의 한계를 넘어, 모델의 세밀한 역량까지 구체적으로 들여다볼 수 있는 평가 체계를 구축하는 데 초점을 맞췄습니다.
  • 이번 업데이트의 내용을 정리한 개발블로그는 이곳에서 확인하실 수 있습니다.
  • 📊 전세계 LLM 모델들의 한국어 능력을 평가합니다. 언어이해능력, 응용능력 그리고 AI Alignment의 넓은 관점에서 평가합니다.
  • 🔍 W&B의 Weave 이용한 심층 분석을 확인하실 수 있습니다.
  • 🎰 실시간으로 비교대상 모델을 선택할 수 있습니다.
  • 🛣️ W&B의 Report에서 실제 실행한 실험으로 이동하여 그 내용을 확인할 수 있습니다.
  • 🤫 평가 데이터로 비공개 평가를 진행하실수도 있습니다!
  • 🌐👉 Read the English version here
📮 리더보드 전반에 관한 문의는 contact-kr@wandb.com 으로 메일주십시오.

📋 본 리더보드에 모델을 게재하시기 원하시는 분은 이 양식을 클릭하여 요청해주십시오.

🗄 본 리더보드에서 사용한 평가 데이터에 접근하여 비공개 평가를 수행하고 싶으신 분은 이 양식을 클릭하여 요청해주십시오.
💡
리더보드에서 사용한 분류나 평가지표, 평가방법에 대해 더 구체적으로 알아보고 싶으신 분은 아래의 Weights & Biases 백서중 "LLM 평가 모범사례"를 확인해주세요. Weights & Biases는 그 외에도 다양한 LLM 백서를 공개하고 있습니다.


1. 평가 방법



1. 범용 언어 성능 (General Language Performance)

2. 가치 정렬 성능 (ALignmenT)

2. 종합 평가

2.1 전체 모델 리더보드



Run set
61


2-2. 30B 이하 모델 리더보드

3. 모델 성능 비교

범용 언어 성능 GLP 와 안전 성능 ALT 에 대한 각 항목별 평가 결과를 확인할 수 있습니다.
비교 대상 모델 선택을 눌러 나타나는 테이블의 👁️ 버튼을 눌러 모델을 선택하거나 선택 해제할 수 있습니다.

비교 대상 모델 선택
3


4. 모델별 상세 내용 확인

W&B Weave는 모델의 추론 과정과 내부 동작을 단계별로 시각화해주는 Trace 기능을 제공합니다.
이를 통해 모델의 입출력 흐름, 토큰 단위 reasoning 패턴, 에러 지점, 성능 병목 등을 상세히 분석할 수 있습니다.
아래 상세 확인 모델 선택 테이블에서 확인을 원하시는 모델의 👁️ 를 누르신 후 각 벤치마크의 Trace를 선택하시면 모델 입출력을 상세하게 확인할 수 있습니다.

상세 확인 모델 선택
1


5. 카테고리별 상세 확인

5. 1. 1 GLP - 기본언어성능

5. 1. 2 GLP - 응용언어성능

5. 1. 3 GLP - 지식, 질의응답

5. 1. 4 GLP - 추론 능력

5. 1. 5 GLP - 어플리케이션 개발

5. 2. 1 ALT - 제어성능

5. 2. 2 ALT - 윤리/도덕

5. 2. 3 ALT - 유해성 방지

5. 2. 4 ALT - 편향성 방지

5. 2. 5 ALT - 환각 방지

Iterate on AI agents and models faster. Try Weights & Biases today.