Skip to main content

발표: W&B Weave의 새로운 평가 비교 기능

새로운 Weave 기능을 통해 LLM 평가를 전체 수준과 세부 수준에서 인터랙티브하게 비교할 수 있습니다. 작동 방식은 다음과 같습니다. 이 글은 AI 번역본입니다. 오역이 의심되는 부분이 있으면 댓글로 알려 주세요.
Created on September 15|Last edited on September 15
새로운 소식을 전하게 되어 기대됩니다 W&B Weave 기능: 평가 비교이제 LLM 평가 결과를 한눈에 보여주는 시각적 요약을 확인한 뒤, 예시별 출력과 점수를 깊이 있게 비교할 수 있습니다.
시작은 아주 간단합니다. Evaluations 탭으로 이동해 몇 개의 평가를 선택한 다음 “Evaluation comparison” 버튼을 클릭하세요. 그러면 성능, 지연 시간, 토큰 사용량 등 전반에 걸쳐 모델을 비교한 종합 보고서를 바로 확인할 수 있습니다. 또한 새 모델로 교체했든, 프롬프트의 새 버전을 시도했든, 평가 중인 두 애플리케이션 간 차이도 빠르게 파악할 수 있습니다.
자세한 내용은 아래에서 설명하겠지만, 평가 비교 기능을 실제로 확인하고 싶다면 아래 동영상을 시청하세요:




레이더 차트와 막대 차트는 지연 시간과 총 토큰처럼 자동 수집되는 지표는 물론 사용자 정의 점수를 포함해, 서로 다른 모델의 요약 지표를 비교합니다. 또한 사용자 정의 채점 함수를 정의해 커스텀 지표를 손쉽게 추가할 수 있습니다.
플롯 외에도 베이스와 챌린저 모델을 한눈에 볼 수 있는 모델 스코어카드가 있으며, 모델 이름, 프롬프트 템플릿, 온도와 같은 사용자 정의 속성을 탐색할 수 있는 뷰가 제공됩니다. 이 요약 화면을 통해 중요한 정보를 빠르게 파악할 수 있습니다. 예를 들어, 한 모델이 더 많은 토큰을 사용했지만 더 나은 성능을 낸 경우를 확인할 수 있습니다.

새로운 evaluation comparisons는 모델이 평가된 모든 다양한 예시와 각 예시의 출력 결과를 손쉽게 탐색할 수 있는 방법도 제공합니다. 평가 프레임워크를 사용 중이라면 trials 간을 오가며 모델 지연 시간, 모델 요약, 전체 집계 지표를 확인할 수 있습니다. 또한 점수가 어떻게 계산되었는지 확인할 수 있도록 코드도 항상 제공합니다.
새로운 evaluation comparison 기능의 가장 큰 장점 중 하나는 까다로운 예시를 깊이 탐색하거나, 모델 간 평가 결과가 크게 다른 출력들을 찾아서 챌린저 모델에서 새로운 동작을 발견할 수 있다는 점입니다.
예시마다 점 하나로 표시하고, X축에는 베이스라인 모델, Y축에는 챌린저 모델의 점수를 배치하기 때문에 평가 성능의 차이가 한눈에 들어옵니다. 성능이 동일한 위치를 보여 주는 중심선도 추가했습니다.


예시를 필터링한 뒤에는 두 출력을 나란히 비교하고, 각 출력과 해당 점수를 차례로 살펴볼 수 있습니다. 또한 문제의 근본 원인을 파악하기 위해 application trace로 빠르게 이동할 수 있습니다. 이는 LLM이 정확히 어떤 데이터를 사용했는지 확인하고 싶은 예시에 특히 유용합니다.

우리는 확장성을 염두에 두고 evaluation comparison 기능을 만들었습니다. 따라서 단일 평가를 비교하거나 여러 평가를 선택해 나란히 비교할 수 있습니다. 이 보고서는 모델 지표의 개수가 얼마든지 자동으로 레이아웃을 조정합니다.
바로 시작해 보실래요? 먼저 Weave 자료를 확인해 보세요:

이 글은 AI로 번역되었습니다. 오역이 의심되면 댓글로 알려주세요. 원문은 아래 링크에서 확인하실 수 있습니다: 원문 보고서 보기