Horangi 한국어 LLM 리더보드
자연어 이해 및 생성 관점에서 한국어 LLM들의 능력을 평가합니다.
Created on March 27|Last edited on October 31
Comment
이 리더보드는 Horangi: W&B Korean LLM Leaderboard 3 로 업데이트 되었습니다. 이 곳을 클릭하여 새로운 리더보드의 평가 결과를 확인하세요!

호랑이 LLM 리더보드는 거대언어모델(LLM)의 한국어 능력을 평가하기 위한 도구로써 또 다른 대안을 제시합니다. 우리는 두 가지 방법을 통해 한국어에 대한 종합적인 평가를 수행하고자 합니다.
- Q&A 형식의 언어이해 llm-kr-eval: 일본어 버전인 llm-jp-eval 기반에서 한국어 버전으로 개발되었습니다.
- Multi-turn 대화를 통해 생성 능력을 평가하는 MT-Bench
호랑이 LLM 리더보드는 Weight & Biases (W&B)의 테이블 기능을 활용하여 평가 결과를 다양한 시각에서 쉽게 분석할 수 있도록 합니다. 이 기능을 활용하면 각 모델 별 비교를 손쉽게 수행할 수 있으며, 기존 실험들을 추적하고 기록할 수 있습니다.
이 문서는 호랑이 LLM 리더보드의 평가 결과와, 평가 방법론, 각 평가 query에 대한 세부 분석을 제공하며, 이를 통해 사용자에게 최신 LLM에 대한 이해도를 높일 수 있도록 하고자 합니다.
호랑이 리더보드의 기능들 🐯
- 기존에 출시된 유명 LLM들에 대한 평가 결과를 baseline으로 제공합니다.
- 질의응답 형태로 구성된 llm-kr-eval, 프롬프팅 대화에 대한 생성 능력을 평가하는 MT-Bench를 활용한 종합 평가를 수행합니다.
- llm-kr-eval의 경우, 근본적인 능력을 측정하기 위해 제로샷 평가를 수행합니다. 🌶️
- W&B의 테이블 기능을 활용하여 심층 분석을 가능케합니다. 🔍
- 간편한 비교를 위해 interactive한 모델 비교가 가능합니다. 🎰
- 사용자가 원한다면 평가 결과를 리더보드에 공유하지 않을 수 있습니다!
이 리더보드에 대해 자세한 정보를 원한다면 다음의 게시글을 참고하세요:
이 문서에서 다룰 내용들:
LLM 종합 평가 결과
※ llm-kr-eval 의 경우, 제로샷 평가를 수행합니다. 100개의 문항을 기준으로 평가를 수행 및 계산합니다.
Overall average = (llm-kr-eval + MT-bench/10) / 2
Run set
31
Run set 2
0
W&B를 통해 리더보드에 자신의 LLM을 평가해보세요! (무료 평가판을 통해서도 얼마든지 가능합니다.) LLM 개발에 관심이 있는 분들은 W&B의 LLM백서도 추천합니다.
이외에도 이 리더보드에 대해 문의사항이나 제안사항이 있으실 경우, contact-kr@wandb.com 으로 편하게 문의 부탁드립니다!

Weights & Biases platform
Weights & Biases helps AI developers build better models faster. Quickly track experiments, version and iterate on datasets, evaluate model performance, reproduce models, and manage your ML workflows end-to-end.

Free Guide: How to Train LLMs from Scratch
The best teams building the large language models transforming our world train those models on Weights & Biases.
카테고리별 평가 결과
llm-kr-eval 과 MT-Bench 에 대한 각 항목별 평가 결과를 확인할 수 있습니다. 테이블의 👁️ 버튼을 눌러 모델을 선택하거나 선택 해제할 수 있습니다.
Model list
3
llm-kr-eval 평가에 대한 심층 분석
선택된 모델에 대한 각 Task별 결과 확인
Model list
31
llm-kr-eval 출력 심층 분석
출력 결과물
하단의 모델 목록에서 👁️ 버튼을 눌러 원하는 모델을 선택 또는 선택 해제할 수 있습니다. 또한 수식을 통해 손쉽게 분석 테이블에서 원하는 결과만 확인할 수 있습니다. 예를 들어 kornli 테스트셋에 대한 결과물만 보고 싶다면, runs.summary["kaster_output_table_dev"] 테이블의 헤더 row 맨 왼쪽에 위치한 역삼각형(▽) 필터 버튼을 눌러 다음의 쿼리를 입력하여 확인할 수 있습니다. (좀 더 자세한 설명을 위해서는 다음의 아티클을 참고해주세요.)
row["target_dataset"]=="kornli"
For the examples of output, we have used 20 questions from each development data set. Please note that test data is not used in the example questions displayed below.
💡
Model list
31
MT-bench 평가에 대한 심층 분석
선택된 모델에 대한 각 Task별 결과 확인
Model list
31
MT-bench 출력 심층 분석
하단의 모델 목록에서 👁️ 버튼을 눌러 원하는 모델을 선택 또는 선택 해제할 수 있습니다. 또한 수식을 통해 손쉽게 분석 테이블에서 원하는 결과만 확인할 수 있습니다. 예를 들어 'coding' 카테고리로 필터링을 하고 싶다면, runs.summary["mtbench_output_table"] 테이블에서 헤더 row 맨 왼쪽에 위치한 역삼각형(▽) 모양의 필터 버튼을 누르고 다음의 쿼리를 입력하면 됩니다. (좀 더 자세한 설명을 위해서는 다음의 아티클을 참고해주세요.)
row["category"]=="coding"
Model list
31
평가 Task에 대한 설명
이 리더보드는 Weight & Biases가 주관 운영하며, 공개 또는 비공개 LLM에 대한 평가 결과를 제시합니다.
추가로 검즘하고자 하는 모델이 있으신 경우, contact-kr@wandb.com 으로 연락 부탁드립니다. 또한 공개된 GitHub repo를 통해 사용자의 환경에서 평가를 수행할 수 있습니다.
💡
평가를 수행하기 위해서 우리는 다음의 내용을 활용합니다:
- 비슷한 역할을 위해 일본에서 개발된 llm-jp-eval 을 기반으로 구현된 llm-kr-eval 을 활용하여 공개된 벤치마크 테스트셋을 통해 평가를 수행합니다.
- lm-sys에 의해 공개된 MT-bench 를 활용합니다. MT-bench 의 한국어 버전은 W&B에 의해 번역되었습니다.
이 리더보드의 깃허브 주소는 다음과 같습니다 -- https://github.com/wandb/llm-leaderboard/tree/korean. 새로운 제안이나 기여는 언제든지 환영합니다. :)
llm-kr-eval
lm-kr-eval은 일본에서 개발된 llm-jp-eval을 한국어 평가를 위해 수정한 버전입니다. llm-kr-eval은 기존에 공개된 널리 활용되는 벤치마크 데이터셋을 활용하기 위하여, 파인튜닝과 테스트에 알맞게 포맷을 전처리하였습니다. 우리는 이 데이터셋의 집합을 kaster(k + asterisk)라고 부릅니다. 자세한 정보는 여기에서 확인할 수 있습니다. llm-kr-eval은 깃헙에 공개되어 있으며, 여러분의 참여를 기다립니다.
llm-kr-eval은 다음의 기능을 제공합니다.
- 평가 프롬프트로서 정해진 포맷의 kaster instruction을 생성합니다.
- 기존의 공개된 한국어 평가 데이터셋을 생성 task를 위한 데이터셋으로 변환하였습니다.
- 다양한 테스트 데이터셋에 대해 LLM을 실행하고 평가하도록 합니다.
현재 제공되고 있는 데이터셋은 아래를 참고하세요. 'exact'은 텍스트의 일치를 의미하며, 'char f1'은 캐릭터 레벨의 f1 score, 'set f1'은 문장 레벨의 f1 score를 의미합니다.
다음의 내용들을 통해 평가에 활용된 테스트셋의 예시들을 확인할 수 있습니다.
[클릭하여 확장] NLI (Natural Language Inference): KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)
[클릭하여 확장] QA (Question Answering): KoBEST_WiC(exact), KMMLU(exact)
[클릭하여 확장] RC (Reading Comprehension): KorSTS(person, spearman), KoBEST_SN(exact)
[클릭하여 확장] EL (Entity Linking) : KLUE-NER(set_f1), KLUE-RE(exact)
[클릭하여 확장] FA (Fundamental Analysis): Korean-CommonGen(bleu)
MT-bench
MT-bench 는 lm-sys에서 세심하게 고려하여 작성한 멀티턴 질의 응답을 위한 LLM 벤치마크 테스트 데이터셋입니다. (paper / github) 기존에 한국어 MT-Bench 데이터셋이 존재하기 않았기 때문에, 우리는 이 리더보드를 위해 한국어용 MT-Bench 번역하여 데이터셋을 마련하였습니다. 이 질의응답 세트는 멀티턴 대화에서 LLM의 사용자의 지침과 기존 문맥을 따르는 능력을 평가하기 위해 고안되었습니다. 여기에는 "일반 사용 사례"와 "도전적인 난이도"가 모두 포함되며, 총 8개 카테고리의 80개의 문항으로 이루어져 있습니다.
- Writing
- Roleplay
- Extraction
- Reasoning
- Math
- Coding
- Knowledge I (STEM)
- Knowledge II (humanities/social science)
Add a comment
v
Reply