W&B Weave는 프레임워크 및 LLM에 구애받지 않으며 다양한 사전 구축 통합 기능을 제공합니다.
Evaluations
품질, 레이턴시, 비용, 안전 등 여러 측면에서 AI 애플리케이션 성능의 최적화를 위해 엄격한 평가를 실행하며 LLM, 프롬프트, RAG, 에이전트 및 가드레일을 실험해 보세요. Weave는 강력한 시각화, 자동 버전 관리, 리더보드, 플레이그라운드를 제공하여 개선 사항을 정확하게 측정하고 빠르게 반복할 수 있는 플레이그라운드를 제공합니다. 모든 평가 데이터를 중앙에서 추적하여 재현성, 계보 추적 및 협업을 가능하게 합니다.
프로덕션 모니터링 및 디버깅
Weave는 애플리케이션의 모든 입력, 출력, 코드 및 메타데이터를 자동으로 기록하고 데이터를 트레이스 트리로 구성하는것을 통해 쉽게 탐색하고 분석하여 문제를 디버깅할 수 있도록 돕습니다. 실시간으로 추적하며 프로덕션 환경에서 앱을 모니터링하고 지속적으로 성능을 개선하세요. 모니터링을 위해 온라인 평가로 앱 성능에 영향을 주지 않고 실시간 수신 프로덕션 추적을 점수화하세요(온라인 평가 미리 보기에 등록). 멀티모달 앱 개발 – Weave는 텍스트, 문서, 코드, HTML, 채팅 스레드, 이미지 및 오디오를 기록하며, 곧 비디오 및 기타 모달리티도 지원할 예정입니다.
Scorers를 시작해보세요
Weave는 일반적인 작업을 위해 사전 구축된 LLM 기반 스코어러를 제공합니다.
Hallucination
Summarization
Moderation
(based on OpenAI moderation API)
Similarity
JSON strings
XML strings
Pydantic data models
Context entity recall
(from RAGAS)
Context relevancy
(from RAGAS)
and more …
Or bring your own
기성 타사 스코어링 솔루션을 Weave에 연결하거나 직접 작성하세요.
RAGAS
EvalForge
LangChain
LlamaIndex
HEMM
and more …
Scoring
Weave는 모든 추적에 대한 품질 점수, 레이턴시 및 비용 지표를 자동으로 추적합니다. Weave는 할루시네이션, 모더레이션 및 컨텍스트 관련성과 같은 일반적인 메트릭에 대한 기본적인 스코어러를 제공합니다. 이를 사용자 지정하거나 처음부터 직접 구축하실 수도 있습니다. 스코어러를 구축에는 어떠한 종류의 LLM도 모두 사용할 수 있습니다.
Human feedback
실제 테스트 및 평가를 위해 사용자와 전문가로부터 피드백을 수집하세요. 피드백은 간단한 좋아요/싫어요 평가와 이모티콘 또는 상세한 정성적 주석이 될 수 있습니다. 주석 템플릿 빌더를 사용하여 라벨링 인터페이스를 일관성 있게 조정하고 효율성과 품질을 개선하세요.
❌ Toxicity
❌ Bias
❌ Hallucination
And more …
Guardrails (preview)
Weave를 사용하여 가드레일을 구현하여 브랜드와 엔드유저를 보호하세요. 기본으로 제공드리는 필터는 유해한 출력을 감지하고 프롬프트 어택을 신속하게 처리합니다. 문제가 감지되면 사전 및 사후 후크가 안전장치를 트리거하여 회사 가이드라인과 정책에 따라 대응을 조정합니다.