Skip to main content

Eris v0.1 소개: 토론 시뮬레이션을 활용한 새로운 LLM 평가 프레임워크

토론을 통해 LLM을 순위 매길 수 있을까요? 바로 그 점을 확인하려 합니다. 이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
오늘 저는 모의 토론을 통해 모델 성능을 평가하는 개념 증명 단계의 LLM 평가 프레임워크, Eris v0.1을 소개하게 되어 매우 기쁩니다.

에리스의 기원

Eris는 근본적인 질문에서 출발했습니다. 어떻게 하면 추론, 지식, 의사소통 능력을 동시에 검증하는 방식으로 LLM을 평가할 수 있을까? 학술 토론에서 영감을 받아, Eris는 복잡한 주제를 두고 서로 다른 LLM들을 구조화된 토론에서 맞붙게 하도록 설계되었습니다.
다음의 지원으로 개발됨 OpenRouter 및 활용하여 Weights & Biases의 Weave 라이브러리Eris는 구성 연설, 반대심문, 반박, 최종 변론을 포함한 전체 토론 흐름을 시뮬레이션하는 오픈소스 도구입니다.
에리스: 불화와 다툼의 그리스 여신 (Stable Cascade)

다음 내용을 다룹니다:




Eris의 작동 방식

Eris v0.1의 평가 프로세스는 다음 단계로 진행됩니다:
  1. 토론 설정무작위로 선정된 주제를 두 LLM에 배정하고, 서로 반대 입장을 맡겨 토론하게 합니다.
  2. 토론 흐름모델들은 실제 학술 토론을 반영한 구조화된 토론에 참여합니다.
  3. 평가별도의 LLM(현재는 Claude 3.5 Sonnet)이 심판 역할을 맡아, 다음과 같은 다양한 기준으로 토론을 평가합니다:
    • 주장의 강도
    • 논리적 일관성
    • 증거 활용
    • 교차심문 효과성
    • 반박의 질
    • 전반적인 설득력
    • 토론 구조 준수
    • 논리적 오류 식별
    • 수사 기법 활용
    • 적응력
    • 의사소통 명료성
    • 전략적 프레이밍
    • 정서 지능
  4. 분석여러 차례의 토론 결과를 집계해 승률과 비교 지표를 산출합니다.

초기 결과와 인사이트

이 개념 증명을 위해 대표적인 LLM 10개를 평가했습니다. 승률은 다음과 같습니다:
ModelRatioWinsLossesanthropic/claude-3.5-sonnet0.7916143openai/gpt-4o0.7716450anthropic/claude-3-opus0.6613670qwen/qwen-2-72b-instruct0.6112278cohere/command-r-plus0.6111977openai/gpt-4-turbo0.4790102google/gemini-pro-1.50.469110601-ai/yi-large0.3263135mistralai/mistral-large0.2347155mistralai/mixtral-8x22b-instruct0.0715192\begin{array}{|l|c|c|c|} \hline \text{Model} & \text{Ratio} & \text{Wins} & \text{Losses} \\ \hline \text{anthropic/claude-3.5-sonnet} & 0.79 & 161 & 43 \\ \text{openai/gpt-4o} & 0.77 & 164 & 50 \\ \text{anthropic/claude-3-opus} & 0.66 & 136 & 70 \\ \text{qwen/qwen-2-72b-instruct} & 0.61 & 122 & 78 \\ \text{cohere/command-r-plus} & 0.61 & 119 & 77 \\ \text{openai/gpt-4-turbo} & 0.47 & 90 & 102 \\ \text{google/gemini-pro-1.5} & 0.46 & 91 & 106 \\ \text{01-ai/yi-large} & 0.32 & 63 & 135 \\ \text{mistralai/mistral-large} & 0.23 & 47 & 155 \\ \text{mistralai/mixtral-8x22b-instruct} & 0.07 & 15 & 192 \\ \hline \end{array}

아래는 각 모델의 맞대결 성과를 보여주는 히트맵입니다:


핵심 발견 사항:
1. Claude 3.5 Sonnet(Anthropic)이 전체 성과에서 최상위로 나타났으며, 승률은 79%였습니다.
2. GPT-4o(OpenAI)는 77%로 근소한 2위를 차지했으며, 맞대결에서는 꾸준히 Claude 3.5 Sonnet을 앞질렀습니다.
3. Claude 3 Opus(Anthropic)은 승률 66%로 3위를 차지했습니다.
4. Qwen-72B-Chat(Qwen)은 일부 더 강력한 모델을 상대로 경쟁력 있는 성과를 보였습니다.
5. Mixtral-8x22B-Instruct와 Mistral-Large(Mistral AI)는 성과가 낮았으며, 부적절한 프롬프트 전략이 원인일 가능성이 있습니다.
이 결과는 토론 맥락에서 서로 다른 LLM의 상대적 강점과 약점에 대해 흥미로운 통찰을 제공합니다. 다만, 다음 점을 강조하는 것이 중요합니다. 이것은 개념 증명입니다, 그리고 the 결과를 최종적인 성능 순위로 해석해서는 안 됩니다.
이는 동료 평가를 거치지 않았습니다.

한계와 향후 과제

다른 초기 단계 프로젝트와 마찬가지로, Eris v0.1에는 향후 버전에서 개선해야 할 여러 한계가 있습니다:
  1. 판정 편향현재 모든 판정에 Claude 3.5 Sonnet을 사용하는 것은 편향을 초래할 수 있습니다. 향후 버전에서는 보다 균형 잡힌 평가를 위해 다수의 모델로 구성된 앙상블이나 인간 판정단(상호 신문형 토론 심사)을 도입할 수 있습니다.
  2. 프롬프트 엔지니어링현재 시스템은 일괄 적용되는 단일 프롬프트를 사용합니다. 반복적 절차를 통해 모델별로 자율적으로 설계한 맞춤 프롬프트를 사용하면 더 공정한 비교가 가능할 수 있습니다.
  3. 확장된 평가 기준더 미세한 평가 지표를 도입하면 모델 역량에 대한 더 깊은 통찰을 얻을 수 있습니다.
  4. 더 큰 표본 규모모델 쌍당 토론 횟수를 늘리면 통계적으로 더 견고한 결과를 얻을 수 있습니다.
  5. 인간 검증인간 평가를 AI 판정과 함께 도입하면 유용한 상호 검증을 제공할 수 있습니다.
  6. 더 많은 모델더 다양한 LLM을 평가 대상에 포함하도록 범위를 확장하면 현재 AI 판도의 전반적인 모습을 더욱 포괄적으로 파악할 수 있습니다.

Eris의 다음 단계는?

현재 Eris v1.0 개발이 진행 중입니다. 이는 위에서 제안한 개선 사항 다수를 구현하는, 더욱 포괄적인 평가 프레임워크입니다. 이번 차기 버전의 목표는 v0.1의 한계를 보완하고, 더 견고하고 통찰력 있는 평가 체계를 제공하는 것입니다.
이에 병행하여 Eris 프레임워크와 그 방법론, 그리고 결과에 대한 보다 심층적인 분석을 담은 종합 논문이 준비 중입니다. 이 논문은 제안된 개선 사항 일부를 실제로 적용하고, 향후 연구 방향도 제시할 예정입니다.
오픈 소스 정신에 따라, 모든 (극도로 지저분하지만 작동하는 Eris 프로젝트의 코드와 데이터는 다음에서 확인할 수 있습니다 GitHub 그리고 및 Hugging Face각각입니다. 꼭 한번 확인해 주세요!

Eris를 후원하기

Eris에 관심이 있고 이 작업을 지원하고 싶다면, 현재 프로젝트를 더욱 발전시키고 확장하기 위한 자금과 보조금을 모색하고 있습니다. Eris를 후원하시거나 1.0 버전 구축에 협업하는 데 관심이 있으시면, 주저하지 말고 DM으로 연락해 주세요 Twitter.



감사의 말

OpenRouter가 $240의 후한 보조금을 지원해 주신 것과, Weights & Biases의 Weave 라이브러리가 Eris 구축에 큰 도움이 된 점에 특별한 감사를 드립니다. 추가로 감사의 말씀을 전합니다: 페이지 베일리 Eris를 정식 프로젝트로 다듬고 발전시키는 데 도움을 주신 분들께.
OpenRouter의 API는 Eris 개발에 결정적인 역할을 했습니다. 다양한 LLM에 매끄럽게 접근할 수 있게 해 주어 평가 과정을 크게 간소화했습니다. 그 덕분에 개별 API 연동을 일일이 관리하지 않고도 여러 모델을 효율적으로 테스트할 수 있었고, 프로젝트의 개발 속도를 크게 높이며 범위를 확장할 수 있었습니다.
Weights & Biases의 Weave 라이브러리는 Eris의 개발과 운영에 핵심적인 역할을 했습니다. Weave의 강력한 디버깅 및 모니터링 기능은 토론이 매끄럽게 진행되도록 보장하여, 전체 평가 과정의 일관성을 유지하는 데 기여했습니다. 실시간 로깅과 시각화 기능을 통해 LLM 상호작용을 상시 감독할 수 있었고, 벤치마크가 실행되는 동안 발생하는 문제를 신속히 파악하고 해결할 수 있었습니다. 이러한 수준의 모니터링은 토론의 무결성과 평가 프레임워크 전반의 품질을 유지하는 데 결정적이었습니다.


Eris v0.1은 거친 수준의 개념 증명에 불과하며, 근거 자료나 절대적 진실의 출처로 사용되어서는 안 함을 강조합니다. 이는 논의를 촉발하고 LLM 평가에 새로운 접근을 촉진하기 위해 설계된 실험적 벤치마크입니다.
💡

이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려 주세요. 원문 보고서는 아래 링크에서 확인하실 수 있습니다: 원문 보고서 보기