Hwangso : LG CNS 금융 도메인 한국어 LLM Leaderboard
Created on September 15|Last edited on September 23
Comment
📊 전세계 LLM 모델들에 대해 금융 도메인을 타겟으로 LLM의 금융 업무 수행 능력과 실무 지식을 객관적으로 평가합니다.
- 🔍 W&B의 Table기능을 이용한 심층 분석을 확인하실 수 있습니다.
- 🎰 실시간으로 비교 대상 모델을 선택할 수 있습니다.
- 🛣️ W&B의 Report에서 실제 실행한 실험으로 이동하여 그 내용을 확인할 수 있습니다.
📮 리더보드 전반에 관한 문의는 flick-contact@lgcns.com으로 메일 주십시오.
📋 본 리더보드에 모델을 게재하시기 원하시는 분은 이 양식을 클릭하여 요청해주십시오.
🗄 본 리더보드에서 사용한 평가 데이터에 접근하여 비공개 평가를 수행하고 싶으신 분은 이 양식을 클릭하여 요청해주십시오.
💡
1. 평가 방법
2. 종합 평가
계산 방법
💰금융 LLM 벤치마크 (Flick)
- 금융 도메인에서 LLM의 도메인 업무 수행 능력과 지식을 평가하는 LG CNS의 Private 벤치마크입니다.
- LLM 답변의 품질을 다각도로 평가하기 위해 3가지 평가 지표를 사용합니다.
- 정답 일치도 (Ground Truth Adherence) - 모델 출력에 대한 전문가 답변과의 일치도를 평가합니다.
- 문맥 일치도 (Context Adherence) - 모델 답변이 주어진 문서에 기반하는지 평가하며, Hallucination하지 않는지 평가합니다.
- 지시사항 준수도 (Instruction Following) - 출력 형식 등에 대한 지시사항 준수 여부를 평가합니다.
- Flick Score은 세가지 평가 지표에 대한 weighted average 점수로, 0~1점 사이의 값을 가집니다
🇰🇷 한국어 벤치마크
- kmmlu_direct: 한국어로 된 다양한 학문 분야에서의 지식과 추론 능력을 평가하는 종합 벤치마크 입니다.
us 영어 벤치마크
- mmlu: 다양한 학문 분야에서의 지식과 추론 능력을 평가하는 종합 벤치마크 입니다.
🇰🇷 LogicKor
- 추론, 수학, 글쓰기, 코딩, 이해, 문법 카테고리에서 10개 질문으로 구성된 한국어 언어모델 벤치마크 입니다.
결과
Run set
89
3. 모델 비교
Run set
89
Task 별 평가 결과
FLICK은 아래와 같은 6개의 TASK에 대한 평가를 수행하며, 각 Task는 아래와 같이 use-case들로 구성되어있습니다.

- 📃 요약 : 대량의 텍스트 기반의 정보 축약, 정보의 핵심 도출 능력 평가
- 💾 데이터 구조화 : 구조화된 데이터의 해석 및 생성 능력 평가
- 💣지시사항 준수 : 사용자가 요청한 규칙을 준수하여 정보를 편집하는 능력 평가
- 🧠논리적 추론 : 금융 도메인에서 수학 연산, 표 이해, 시간순서 배열 능력 평가
- 📑문서 기반 질의 응답 : 금융 문서들에 대한 질문 답변, Hallucination, 정보 누락 여부 평가
- 💰도메인 지식 평가 (금융) : 금융 도메인 지식, 용어 이해 및 금융 문서 해석 능력 평가
각 Task에 따른 상세 use case 평가 결과는 원하시는 Task를 클릭하면 조회 가능합니다.
💡
Model List
3
use-case별 결과 확인
"요약 Task" 에 해당하는 use-case별 평가 결과

flick_score : task별 평가 기준중 중요 metric에 가중치를 주어 계산한 최종 score
* metric : gt(정답 일치도), it(지시사항 준수도), ct(문맥 일치도)
💡
Model List
22
"데이터 구조화 Task"에 해당하는 use-case별 평가 결과

flick_score : task별 평가 기준중 중요 metric에 가중치를 주어 계산한 최종 score
* metric : gt(정답 일치도), it(지시사항 준수도), ct(문맥 일치도)
💡
Model List
22
"지시사항 준수 Task"에 해당하는 use-case별 평가 결과

flick_score : task별 평가 기준중 중요 metric에 가중치를 주어 계산한 최종 score
* metric : gt(정답 일치도), it(지시사항 준수도), ct(문맥 일치도)
💡
Model List
22
"논리적 추론 task"에 해당하는 use-case별 평가 결과

flick_score : task별 평가 기준중 중요 metric에 가중치를 주어 계산한 최종 score
* metric : gt(정답 일치도), it(지시사항 준수도), ct(문맥 일치도)
💡
Model List
22
"문서 기반 질의 응답 task"에 해당하는 use-case별 평가 결과

flick_score : task별 평가 기준중 중요 metric에 가중치를 주어 계산한 최종 score
* metric : gt(정답 일치도), it(지시사항 준수도), ct(문맥 일치도)
💡
Model List
22
"도메인 지식 평가 (금융) task"에 해당하는 use-case별 평가 결과

flick_score : task별 평가 기준중 중요 metric에 가중치를 주어 계산한 최종 score
* metric : gt(정답 일치도), it(지시사항 준수도), ct(문맥 일치도)
💡
Model List
22
Metric별 결과 확인
Flick은 평가 Task별 3개의 평가 Metric을 설정하고, 사람 평가와 Align 되는 LLM-as-a-Judge 평가 방식을 개발하여 LLM 모델의 답변 성능 수준을 평가합니다.


특정 Metric에 대한 chart는 희망하시는 metric을 클릭하면 조회 가능합니다.
💡
Run set
89
4. 금융 특화(Flick) 데이터셋 예시
Run set
89
Add a comment