Skip to main content

안심하고 AI를 배포하세요: W&B Weave 온라인 평가 소개

프로덕션 환경의 AI 에이전트와 애플리케이션을 모니터링하기 위한 실시간 LLM 점수화: 라이브로 유입되는 트레이스를 기반으로 평가합니다 이 글은 AI 번역본입니다. 오역이 있을 수 있으니 댓글로 알려주세요
Created on September 15|Last edited on September 15
대규모 언어 모델(LLM)은 사람과 유사한 텍스트를 생성하는 데 매우 뛰어나지만, 비결정적이며 때때로 예측 불가능하기도 합니다. 아무리 철저한 오프라인 테스트 스위트라도 실제 환경에 배포된 후 애플리케이션이 맞닥뜨릴 모든 에지 케이스를 미리 예상할 수는 없습니다.
그래서 오늘 저희는 기쁜 마음으로 출시 소식을 전합니다 Weave Online Evaluations, 프로덕션 트레이스를 실시간으로 점수화하여 AI 에이전트와 애플리케이션을 모니터링하고, 진단하며, 개선할 수 있게 해주는 새로운 기능입니다.


오프라인 vs 온라인: 30초 요약

오프라인 평가

  • 무엇인가요고정된 데이터셋에 대해 스코어러를 실행하여 프롬프트, 지표, 또는 모델 버전을 빠르게 반복 개선하세요
  • 언제 사용하나요개발 및 실험 단계에서는

온라인 평가:

  • 무엇인가요실제 운영 환경의 라이브 트레이스를 샘플링하고 지속적으로 점수를 매겨 시간에 따른 실제 사용자 행동을 파악하세요
  • 언제 사용하나요: 출시 후, 신뢰성과 품질을 보장하기 위해
Weave를 사용하면 이제 두 가지를 모두 활용할 수 있습니다. 오프라인에서 반복하며 아이디어를 실제 제품 수준으로 끌어올린 뒤, 별도의 코드를 덧붙일 필요 없이 배포 후에도 온라인으로 지속적으로 모니터링하세요. 온라인 평가는 실제 사용자 경험을 파악하고 그 학습 내용을 계속 반영할 수 있게 해 주어, 선순환의 폐루프형 개선 사이클을 만듭니다.

온라인 평가가 중요한 이유

온라인 평가는 실제 사용자 트래픽에서 나타나는 엣지 케이스를 드러냅니다. LLM judge를 사용해 흥미로운 운영 트레이스를 식별하고, 즉시 오프라인 데이터세트에 추가하세요. 이 반복 루프는 데이터세트 품질을 높여 평가 성능을 끌어올립니다. 더 나은 평가는 애플리케이션이 지속적으로 진화하여, 시간이 지나며 더 다양한 사용자 시나리오를 충족하도록 만듭니다.

Weave Online Evaluations 소개

중요한 것만 점수화하고, 노이즈는 건너뛰세요

평가할 트레이스를 정확히 선택하세요. 광범위한 커버리지를 위한 무작위 샘플링은 물론, 라우트, 사용자 코호트, 모델 버전과 같은 정밀한 필터를 통해서도 선택할 수 있습니다. 이렇게 하면 평가 비용을 통제하고 유용한 인사이트를 극대화하며, 시그널과 노이즈의 균형을 온전히 여러분이 관리할 수 있습니다.

직접 준비한 Judge 사용

Weave가 제공하는 프롬프트 기반 템플릿을 UI에서 활용해 맞춤형 스코어러를 구성할 수 있습니다. 모든 스코어러는 W&B 인프라에서 비동기로 실행되며, 사용자에게 추가 지연을 유발하지 않습니다.

시간에 따른 추세 확인

Weave는 모든 점수를 Monitors에 기록하여 스냅샷 비교, 드리프트 감지, 배포와의 상관 관계 분석을 손쉽게 할 수 있게 합니다. Weave SDK 또는 W&B MCP Server를 사용해 모니터 점수와 함께 트레이스를 가져오세요. 그런 다음 사용자 지정 분석 도구로 시간 경과에 따른 추세를 시각화할 수 있습니다.

팀 전체의 역량을 끌어올리세요

프로덕트 매니저와 도메인 전문가도 리포지토리 접근 권한이나 풀 리퀘스트 없이 Weave UI에서 바로 Judge를 생성하거나 수정할 수 있습니다. Monitors UI에서 자신의 LLM을 Judge로 간단히 설정하기만 하면 되며, 코드를 작성할 필요가 없습니다.

마찰 없는 통합

Online Evaluations는 애플리케이션 코드와 완전히 분리되어 동작하므로:
  • 추가로 가져올 라이브러리가 없습니다
  • 멀티스레딩 요령이 필요 없습니다
  • Scorer로 인해 지연이 발생하지 않습니다
트레이스만 Weights & Biases에 기록하세요. 나머지는 Weave가 ���리합니다.

트레이스에서 인사이트까지—60초 이내로

참고: 방문해 주세요 https://weave-docs.wandb.ai/ 최신 문서를 보려면
💡
시작하는 방법을 살펴보겠습니다.
import weave

weave.init("my-chatbot-prod")
# Log a production trace
@weave.op
def your_code(user_input):
agent_response = 'How can I help?'
return agent_response

your_code('can you help please?')
다음으로 링크를 따라가 트레이스를 확인하세요.

그다음 Monitors 탭으로 이동해 새 모니터를 생성하세요. 여기에서 모니터링할 트레이스된 오퍼레이션을 선택하고, 설정한 필터와 샘플링 비율을 충족하는 수신 트레이스에 대해 호출될 LLM 심사자를 생성해 추가할 수 있습니다.

이것으로 끝입니다. 이제 설정한 필터와 일치하는 트레이스가 도착하면 LLM 심사자가 자동으로 실행됩니다.



데이터 플라이휠 구축하기

낮은 점수를 받은 트레이스는 개선을 위한 보물창고입니다. 클릭 한 번으로 표시하면 Weave가 해당 트레이스를 평가용 데이터셋에 추가합니다. 다음 스프린트에서는 그 데이터셋을 오프라인에서 사용해 프롬프트를 다듬고, 모델을 교체하거나, 가드레일을 테스트한 뒤 자신 있게 다시 배포하세요.

요금제와 무료 티어

지금 모든 Weave 사용자에게 Online evaluations가 제공됩니다. 기본 제공 스코어러는 CoreWeave로 구동되는 W&B Inference에서 실행되며 넉넉한 무료 티어가 포함되어 있어 요금을 신경 쓰지 않고 바로 모니터링을 시작할 수 있습니다.


이 글은 AI로 번역되었습니다. 오역이 의심되는 부분은 댓글로 알려주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보고서 보기