Skip to main content

Horangi LLM 리더보드: 또 다른 LLM 공개 평가에 대한 대안

Created on March 26|Last edited on April 5


배경

2020년 GPT3의 등장 이후, 다양한 거대언어모델(LLM)들이 쏟아지고 있습니다. 특히, Instruction Fine-tuning (IFT) 기법이 보편화 되기 시작하면서, 더욱더 많은 LLM들이 출시되고 있는 상황입니다. 따라서 이런 상황에서 다양한 LLM들을 객관적으로 평가하기 위한 많은 방법들이 등장하였습니다. 또한 이런 상황에서 다양한 평가 방법들을 모아서 하나로 보고자 하는 니즈도 생겨났습니다. Upstage의 Open Ko-LLM LeaderBoard도 사용자/연구자들의 이런 니즈에 부응하는 아주 훌륭한 첫 번째 사례였습니다.
Weight and Biases (W&B)와 이 프로젝트의 참여자들은 이러한 업계의 니즈에 부응하고자, "호랑이 LLM 리더보드"를 공개하고자 합니다. 기존에는 다양한 리더보드가 존재하지 않았기 때문에, 하나의 리더보드에 지나치게 편중되어 객관적인 판단이 어려울 가능성이 존재하였습니다. 따라서 W&B의 다양한 시각화 기능을 활용한 호랑이 리더보드를 통해 다양한 시각에서 출시된 LLM들을 바라보고 객관적인 평가를 수행 할 수 있을 것이라 기대합니다. 예를 들어 각 문항에 대한 실제 피평가 LLM의 답변을 쉽게 살펴볼 수 있기 때문에 훨씬 더 투명한 평가를 기대할 수 있습니다.
또한 "호랑이 LLM 리더보드"는 기업 사용자들을 위한 다양한 선택지를 제공하고자 합니다. 기존 Hugging Face (HF) 기반의 리더보드의 경우, HF의 모델 허브에 평가받고자 하는 모델 가중치 파라미터를 공개해야 하며, 주관 기업(KT)의 인프라에서 평가가 수행되었습니다. 따라서 피평가 LLM의 제작사 입장에서는 부담스럽거나, 내부 규정에 저촉되는 상황이 발생할 수 있습니다. 하지만 "호랑이 LLM 리더보드"는 피평가자의 인프라에서 평가를 직접 수행할 수 있으며, 필요에 따라 평가 결과를 비공개할 수 있기 때문에, 피평가자 입장에서 자유롭게 평가 작업을 수행할 수 있을 것입니다.

리더보드 컨셉 소개

호랑이 리더보드의 특징




다양한 시각화를 통해 좀 더 이해하기 쉽게 만듭니다.
실제 문항에 대한 정답을 살펴볼 수 있어, 투명한 평가 결과를 얻을 수 있습니다.

이번에 공개한 호랑이 리더보드는 다음의 기능들을 가지고 있습니다.
  • 기존에 공개된 (검증된) 유명 LLM들에 대한 평가 결과 제공
  • llm-kr-eval 을 활용한 자연어이해 task에 대한 평가
  • MT-Bench 를 활용한 멀티턴 대화 자연어생성 task에 대한 평가 👓
  • llm-kr-eval 의 경우, 모델의 근본적인 성능을 측정하기 위해, 제로샷 평가를 수행합니다. 🌶️
  • 단순한 종합 점수를 확인하는 것이 아닌, W&B의 테이블 기능을 활용하여 디테일한 분석을 항목별로 수행할 수 있습니다.🔍
  • 인터랙티브 UI를 통해 손쉽게 모델을 선택하여 비교할 수 있습니다. 🎰
  • 또한 추가적인 정보는 필요에 따라 실제 W&B에서 수행된 실험 페이지에서 확인할 수 있습니다. 🛣️

평가 방식 및 도구

평가 작업을 수행하기 위해, 우리는 다음의 내용을 활용합니다:
  • 공개 평가 데이터셋을 모아놓은 평가 프레임워크 llm-kr-eval 를 활용하여 평가를 수행합니다. llm-kr-evalllm-jp-eval 을 한국어에 맞도록 수정한 것입니다. 이 평가 프레임워크를 통해, 우리는 벤치마크 평가 데이터셋에 대해서 LLM이 답변한 내용을 평가할 수 있습니다.
  • W&B는 이번 리더보드를 위해서 lm-sys의 MT-Bench 를 직접 한국어로 번역하였습니다. 이를 통해 우리는 LLM의 생성 능력을 평가할 수 있게 됩니다.
이 리더보드를 위한 깃헙 주소는 다음과 같습니다. -- https://github.com/wandb/llm-leaderboard/tree/korean 자유롭게 활용 부탁드립니다!

llm-kr-eval

llm-kr-eval은 일본에서 개발된 llm-jp-eval을 한국어 평가를 위해 수정한 버전입니다. llm-kr-eval은 기존에 공개된 널리 활용되는 벤치마크 데이터셋을 활용하기 위하여, 파인튜닝과 테스트에 알맞게 포맷을 전처리하였습니다. 우리는 이 데이터셋의 집합을 kaster(k + asterisk)라고 부릅니다. 자세한 정보는 여기에서 확인할 수 있습니다. llm-kr-eval은 깃헙에 공개되어 있으며, 여러분의 참여를 기다립니다. llm-kr-eval의 기능은 다음과 같습니다:
  • 주어진 포맷으로 instruction을 생성하고, 이에 따라 평가를 진행합니다.
  • 다양한 벤치마크 데이터셋을 통해 LLM의 평가를 실행합니다.
  • 기존 한국어 평가 데이터를 생성 평가에 맞도록 수정하여, 생성 기반으로 평가를 수행합니다.
지원되는 데이터셋은 다음과 같습니다. 'exact', 'char f1', 'set f1'은 평가 방식을 뜻합니다. 'exact'는 exact matching 기반의 채점, 'char f1'은 캐릭터 기반의 f1 점수, 'set f1'은 문장 기반의 f1 점수를 이릅니다.
  • NLI (Natural Language Inference): KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)
  • QA (Question Answering): KoBEST_WiC(exact), KMMLU(exact)
  • RC (Reading Comprehension): KorSTS(person, spearman), KoBEST_SN(exact)
  • EL (Entity Linking) : KLUE-NER(set_f1), KLUE-RE(exact)
  • FA (Fundamental Analysis): Korean-CommonGen(bleu)
호랑이 리더보드 하단에 샘플 데이터들이 소개 되어 있으니, 참고 부탁드립니다.
이 리더보드는 주로 모델 자체의 생성을 통한 능력을 평가하고자 하고, 평가자에 의한 도움을 최소화 하고자 합니다. 전통적으로 언어 모델의 평가는 정답 후보들에 대한 log-likelihood를 측정하고, 정답이 가장 높은 likelihood를 가질 경우 맞은 것으로 판단하곤 하였습니다. (아래 참고)
하지만 우리의 리더보드의 방식은 텍스트 생성 방식에 기대어 평가를 진행하며, 이 생성은 전체 어휘를 대상으로 진행합니다. 따라서 이를 위해서 언어모델은 적절한 답변을 생성해야 할 뿐만 아니라, 적절한 eos_token을 이어 생성하여 출력을 끝마칠 수 있어야 합니다. 이것은 생성 능력을 활용하는 LLM의 관점에서, LLM을 평가하기에 더 알맞은 방식으로 생각됩니다.
예를 들어, 우리는 실제로 LLM을 활용할 때, 원하는 포맷의 출력을 만들기 위해서 instruction 또는 fewshot을 통해 가이드라인을 주곤 하며, LLM의 능력이 좋을수록 가이드라인에 따라 우리가 원하는 포맷을 쉽게 만들어내는 것을 알고 있습니다.
이것은 기존 다른 리더보드들과 호랑이 리더보드의 가장 큰 차이점이라고 볼 수 있습니다. 추가로 기본 평가 방식은 few-shot이 아닌, zero-shot으로 수행되며, 이것 또한 실제 LLM의 사용 방식의 관점에서 큰 연관이 있습니다. 이 설정들은 우리가 실제 LLM을 사용하는 시나리오에서 모델이 어떻게 동작하는지를 효과적으로 측정하기 위한 설정으로서 고려되었습니다.
Image of our leaderboard method

MT-bench

MT-bench는 꼼꼼하게 선정된 멀티턴 질답 문���들로 이루어진 LLM을 위한 벤치마크로, llm-sys에 의해 개발되었습니다. (paper / github) 기존에 공개된 한국어용 MT-bench는 없었기 때문에, 이번 리더보드 프로젝트를 수행하면서, 직접 번역하고 공개하고자 합니다.
질문 문항들은 LLM이 흐름과 명령을 멀티턴 대화속에서 얼마나 잘 따를 수 있는지 측정할 수 있기 위해 고안되어졌습니다. 또한 "일반 상황"과 "도전적인 명령"들에 대해서도 포함하고 있습니다. 총 80개의 문항으로 이루어져 있으며, 8개의 카테고리로 나뉘어집니다. 질문에 대한 답변은 유일하지 않을 것이므로, 정성적인 평가를 위해서 GPT-4가 채점에 활용됩니다.
  • Writing
  • Roleplay
  • Extraction
  • Reasoning
  • Math
  • Coding
  • Knowledge I (STEM)
  • Knowledge II (humanities/social science)
다음의 테이블은 원논문에서 발췌하였으며, 영어 버전의 예제 문항을 보여줍니다.

호랑이 리더보드에서의 평과 결과 논의

우리는 이 리더보드를 준비하면서 객관성을 확보하기 위해 기존에 공개된 유명 LLM들에 대한 평가 결과도 함께 준비하였습니다. 이를 통해 사용자들은 자신들의 LLM이 기존 LLM에 대비해서 어떤 수준인지 좀 더 쉽게 파악할 수 있을 것이라 기대합니다.
다음의 테이블에서도 볼 수 있듯이, OpenAI의 GPT-4가 역시 최고 존엄의 자리를 지키고 있음을 알 수 있으며, Google의 Gemini-pro가 이를 맹렬히 추격하고 있음을 확인할 수 있습니다. Open LLM 진영에서는 Mistral이 가장 뛰어난 모습을 보여주며, 야놀자가 매우 인상적인 모습을 보여주고 있습니다.
야놀자의 경우에는 기존에 공개된 영어 LLM인 Upstage Solar 10.7B를 continual pretraining하여 한글화 한 것으로서, from-scratch 학습에 비해 훨씬 적은 양의 데이터를 넣어서 더 훌륭한 성과를 낼 수 있었다는 사실이 매우 인상적입니다. (참고: https://arxiv.org/abs/2402.14714)
이 밖에도 많은 LLM들이 Upstage Solar를 기반으로 하고 있는 것을 확인할 수 있기에, Upstage가 한국 LLM 생태계에 끼친 선한 영향력을 인정하지 않을 수 없습니다. 앞으로도 많은 활약을 통해 한국 인공지능 업계를 이끌어주길 기대합니다. 그 밖에도 KT와 42dot과 같은 사기업에서 from-scratch로 학습한 LLM을 공개하였고, 이를 평가한 결과도 확인할 수 있습니다.
아쉽게도 polyglot 기반의 LLM의 경우에는 뛰어난 성능을 보여주지 못하고 있는데요. 이것은 fine-tuning 방식의 이슈가 있을 수도 있지만, 너무 foundation model 자체가 오래전에 공개된 탓에 현재 널리 쓰이는 방식의 recipe가 아니기 때문일 수도 있습니다. 또는 단순히 오래된 탓에 대중들로부터 관심이 멀어진 것일수도 있습니다. 하지만 polyglot이 첫 한국어 Open LLM의 시대를 열어주었으며, 덕분에 현재와 같은 LLM 생태계가 갖춰질 수 있었다는 사실은 부정할 수 없을 것입니다.


참고로 이 실험은 Instruction Finetuned (IFT) 모델과 Pretrained (PT) 모델을 구분하지 않고 실험하였기 때문에, IFT 모델이 PT 모델에 비해 높은 점수를 받는 것은 매우 당연합니다. 이 글 또는 리더보드를 살펴보는 사용자분들도 이 부분을 참고하시길 부탁드립니다.
호랑이 리더보드의 장점 중 하나는 심지어 각 문항별 질문과 답변을 일일히 확인할 수 있다는 점입니다. 예를 들어 다음의 그림과 같이 query를 입력함으로써, 특정 모델이나 특정 데이터셋에 대해서 쉽게 답변을 확인할 수 있습니다.

이렇게 필터를 적용하여 실제 평가에 사용된 프롬프트와 문제 입력, 그리고 모델의 출력을 살펴보면 다음과 같은 것을 알 수 있습니다. 다음은 KoBest의 HellaSwag가 Alpaca 포맷을 통해 평가에 적용된 예시입니다.
다음은 작업을 설명하는 지침과 컨텍스트 입력의 조합입니다. 요구를 적절하게 만족시키는 응답을 적으십시오.

### 지시:
전제 뒤에 올 문장으로 적절한 문장의 번호를 선택하세요. 답변에는 0, 1, 2, 3 외에는 아무것도 포함하지 않는 것을 엄수하십시오.

### 입력:
전제:남자는 여자친구와 함께 공연을 보러가기 위해 티켓을 사려고 한다. 남자는 먼저 티켓을 판매하는 사이트에 접속한다. 사이트에서 원하는 공연을 검색해 예매하기 버튼을 누른다. 그 후 남자가 날짜와 시간, 구매하실 티켓 수를 선택했더니 결제창이 뜬다.
0:화면에 결제 완료창이 뜨고 예매번호가 발급된다.
1:남자는 티켓정보를 캡쳐해서 여자친구에게 보낸다.
2:남자는 신용카드로 티켓을 결제힌다.
3:여자친구는 기뻐하며 고마움을 표현한다.

### 응답:

예시에서 확인할 수 있듯이, '지시' 섹션에서 답변에 대한 명확한 가이드라인이 있기 때문에, LLM은 likelihood를 통한 평가가 아닌 generation을 통한 평가에서도 잘 동작해야 합니다. 따라서 인상적인 결과를 보여주는 'yanolja' 모델의 경우에는 오직 숫자 2 만 출력한 후, EOS 토큰을 뱉어내는 것을 확인할 수 있습니다. 만약 모델의 지시 명령을 따르는 능력이 부족하다면, 정답은 2입니다. 와 같은 출력을 뱉어낼 것이고, score metric에서 더 낮은 점수를 기록할 수 밖에 없습니다.
이것은 실제 우리가 LLM을 활용할 때 문제가 될 수 있습니다. 만약 LLM의 판단 및 출력을 통해 이후 모듈의 동작이 정해지는 상황일 때, 객관식 정답에 대한 출력이 비정형일 경우 정답을 추출하기 어려워 이후 모듈의 동작을 결정하기 어려울 수 있기 때문입니다. 이것이 '호랑이 리더보드'에서 likelihood 기반의 평가에 기대지 않고, generation에 기대어 평가를 수행한 이유라고 볼 수 있습니다.
다음의 차트는 llm-kr-eval과 MT-Bench 점수를 scatter-plotting을 통해 나타낸 것입니다. 점수 결과가 우상단에 위치할수록 좋은 모델이라고 볼 수 있습니다. 앞서 설명하였듯이, 거칠게 요약하면, llm-kr-eval의 경우 자연어이해(NLU) task를 대표한다고 볼 수 있고, MT-Bench의 경우 자연어생성(NLG) task를 대표한다고 볼 수 있습니다.
이러한 관점에서 다음의 차트를 살펴보면 매우 흥미롭게도 대부분의 모델들이 일관된 자연어이해 능력과 자연어생성 능력을 갖는 것을 볼 수 있습니다. 즉, 어떤 특정 모델이 특출나게 자연어이해 또는 자연어생성에서만 특별한 능력을 보여주지 않는 것을 볼 수 있습니다.

이것은 W&B에서 공개한 일본어 LLM 리더보드에서 나타나는 특징과 다른데요. (하단 참조) 한국어와 달리 일본어 리더보드에서는 LLM들이 각기 다양한 개성을 뽐내는 것을 확인할 수 있습니다.
이러한 현상을 설명하기 위해서 여러가지 가설을 생각해볼 수 있습니다. 첫 번째, 현재 공개된 한국어 LLM들은 많은 모델들이 Upstage Solar에 기반하는 상황입니다. 따라서 Foundation Model (FM)을 공유하는 상황이므로 비슷한 성향의 IFT 결과물이 나오는 것일 수도 있습니다. 두 번째, 아직까지 한국어 LLM 생태계는 다양성을 자랑할만큼 많은 결과물이 나오지 않았을 수도 있습니다. 다음의 그림에서 확인할 수 있는 것처럼, 일본어 LLM 생태계는 좀 더 다양한 FM을 기반으로 IFT가 수행되고 있음을 추측해볼 수 있습니다.
다양한 개성을 뽐내는 일본어 LLM들. 2024년 04월 01일 기준.
앞서 설명드린대로 호랑이 리더보드는 일본어 LLM 리더보드(Nejumi leaderboard)를 기반으로 합니다. 공개된 일본어 기반 LLM들은 상대적으로 NLU task에 강점을 가진 모델부터, 가벼우면서도 NLG task에 강한 모습을 보이는 모델까지, 다양한 개성을 가진 모델들이 존재합니다. 우리는 이와 같이 일본어 LLM들을 통해, 앞으로 한국어 LLM을 발전시키고자 할 때 참고할 수 있는 부분들을 발견할 수 있을것이라 생각합니다. 특히 잘 알려져있다시피, 한국어와 일본어는 굉장히 비슷한 언어이므로, 이러한 결과는 흥미로운 생각거리들을 우리에게 제공합니다. 이러한 관점에서 부디 이번 '호랑이 리더보드'의 공개가 앞으로 한국어 LLM 생태계 다양화에 기여가 되길 바랍니다.



기업에서의 사용

만약 여러분의 회사에서 이 리더보드를 사용하고자 할 경우, 리더보드 우상단의 세팅 내의 'Make a copy' 버튼을 눌러 여러분의 회사 환경에서 이 프로젝트를 복사해서 활용하시면 됩니다!


이후에 'Run set' 탭의 각 모델들 우측의 '+' 버튼을 클릭하면, wandb 프로젝트 내의 실행한 실험들의 리스트가 보이는 'Run set2' 탭이 추가 됩니다. 여러분의 회사에서 실행하고자 하는 작업을 여기에 추가해주세요. 그럼 결과가 리더보드에 보이게 될 것입니다.



Contact

리더보드의 내부 사용을 원하실 경우, contact-kr@wandb.com 으로 언제든지 편하게 연락 부탁드립니다!