Skip to main content

OpenAI Evals 데모: W&B Prompts로 평가 실행하기

이 글에서는 W&B Prompts를 OpenAI Evals와 함께 사용하는 방법을 간단한 안내와 함께 설명하여, 어떤 평가든 한 번의 클릭으로 실행할 수 있도록 합니다. 이 글은 AI 번역본입니다. 오역이 의심되면 댓글 섹션에 자유롭게 알려주세요.
Created on September 15|Last edited on September 15
여러분의 사용 사례에 맞춰 LLM을 평가하는 일은 어렵고 모호하며, 매우 빠르게 변화하고 있습니다.
OpenAI Evals는 LLM 평가를 위한 수십 가지 평가 스위트를 빠르게 확장해 나가는 저장소입니다. W&B Launch를 사용하면 OpenAI Evals의 어떤 평가든 한 번의 클릭으로 쉽게 실행하고, 결과를 Weights & Biases에서 시각화하고 공유할 수 있습니다.
W&B Launch와 함께 OpenAI Evals를 사용하는 간단한 안내입니다. (W&B Launch 소개는 이곳을 참조하세요) 가이드.)



1. 다음으로 이동하세요 작업 페이지

청록색 버튼을 클릭하세요 Launch “Launch” 모달을 열기 위해 버튼을 클릭하세요:




2. Job 실행하기

1. 클릭하세요 Clone from... 유효한 프리셋(preset)을 사용하려면 버튼을 클릭하세요. 또는 직접 구성(config)을 정의하세요.
2. (선택 사항) 프롬프트 엔지니어링을 시도하려면 다음을 변경할 수 있습니다:
1. registry 새 데이터세트를 추가하려면
2. model.override_prompt 새 프롬프트를 시도하려면
3. 선택하세요 W&B Global CPU 큐.
업데이트: 2024-01-11 큐를 생성하고 선택하기 (예시는 이 노트북을 참조하세요)
4. 대상 프로젝트를 선택하세요(여기에 run이 기록됩니다)
5. 청록색 버튼을 클릭하세요 Launch now 버튼


5. 작업이 실행되었습니다! Queue에서 작업 진행 상황을 확인하세요





3. Report에서 결과 보기

작업이 완료되면 run으로 연결되는 링크가 표시됩니다. 해당 링크를 따라가면 성능 지표와 함께 프롬프트, 응답, 메타데이터를 보여주는 대화형 테이블이 포함된 워크스페이스에서 결과를 확인할 수 있습니다.


해당 작업은 선택한 평가와 프롬프트에서의 모델 성능을 요약한 공유 가능한 Report도 생성합니다. 이를 확인하려면 프로젝트로 이동한 다음 측면의 Report 아이콘을 열어 보세요.



이 보고서는 성능의 여러 측면을 다룹니다:
  • 상단에서 주요 성능 지표와 비용 지표를 확인하세요
  • 플롯에서 각 평가 버전마다 성능이 어떻게 변화했는지 확인하세요.
  • 아래에서 데이터 계보를 확인하고, 작업의 입력과 출력이 되는 아티팩트를 볼 수 있는 레지스트리의 미리보기도 확인하세요.
  • 흥미로운 결과를 확인하려면 다음을 시도해 보세요 Japanese Translation 프리셋!





4. 커스텀 평가 만들기

생성된 Report에는 직접 평가를 실행하는 방법에 대한 안내가 포함되어 있습니다:


이 글은 AI로 번역되었습니다. 오역이 있을 수 있으니 댓글에서 자유롭게 알려주세요. 원본 Report는 다음 링크에서 확인하세요: 원본 보고서 보기