Weave 뉴스레터: LLM 평가 차트, AI 광고, Groq 및 Cohere 연동
평가 차트 튜토리얼, Weave로 만드는 Weave 광고, 그리고 새로운 통합 소식
이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment
빌더 여러분 안녕하세요—Llama 3.1 405B 출시를 축하합니다. Meta 팀을 진심으로 응원하며, 그들이 Weights & Biases 고객인 점을 매우 자랑스럽게 생각합니다. 여러분이 Llama 3.1 405B로 무엇을 만들어낼지 기대하고 있겠습니다.
Weights & Biases에서는 LLM 애플리케이션을 추적하고 평가하기 위한 경량 툴킷인 W&B Weave를 더 나은 제품으로 만들기 위해 꾸준히 개선해 왔습니다. 새로운 통합부터 튜토리얼, 커뮤니티 프로젝트까지, Weave의 최신 업데이트와 이를 통해 어떤 이점을 얻을 수 있는지 소개합니다.
이번 주 LLM 팁
시스템 프롬프트 압축시스템 프롬프트 길이를 줄이도록 LLM에 요청하는 것은 간단하지만 토큰 사용량을 절약하는 데 매우 효과적입니다. 이번 주에 사용자 지원 봇에 적용해 약 500개의 토큰을 절감했으며, 정확도 저하는 없었습니다.
| mean prompt_tokens: original | mean prompt_tokens: compressed |
|---|---|
| 8182.3163 | 7616.1531 |
새로운 통합
Weave 통합 팀은 쉴 틈이 없습니다. 이제 Weave는 다음을 포함한 인기 LLM과 오케스트레이션 프레임워크에서 발생한 호출을 자동으로 기록합니다. Groq, Cohere, DSPy, Google Gemini, Together AI, OpenRouter 그리고 LangChain자동 추적과 토큰 사용량을 얻으려면, 다음 호출만 추가하세요 weave.init("my_LLM_project"). 자세한 내용은 Weave 통합 문서 전체 목록은
제품 업데이트
저희 Weave 리드 엔지니어 Tim이 직접 만든 새 기능을 보여주는 최신 영상을 소개합니다. 이 기능은 평가 결과를 직관적인 시각 방식으로 비교하고, 개별 예시까지 깊이 파고들 수 있게 해줍니다. 최근에 선보인 Feedback과 마찬가지로, 이러한 비교 기능은 팀의 LLM 평가 워크플로를 개선하고 더 나은 의사결정을 내리는 데 도움을 줄 것입니다.
인기 블로그
AI 기반 교사 보조 도우미 만들기
Groq와 LlamaIndex로 구동되는 AI 보조 도우미를 만드는 과정과 LLM을 활용한 평가 방법 안내
사실 불일치 탐지 요리책
Eugene Yan의 이전 작업을 바탕으로, 이 요리책은 Factual Inconsistencies 벤치마크에서 기준 모델을 평가하고, 파인튜닝한 뒤 다시 평가하는 과정을 안내합니다.
Weave로 Weave 광고 만들기
SDXL, AnimateDiff, 보간 기법을 활용해 Weave 광고를 제작했고, YouTube에 공개했습니다.
커뮤니티
Eris v0.1 W&B Weave Evaluations로 구축된 토론 시뮬레이션을 활용하는 새로운 LLM 평가 프레임워크입니다. Eris는 발제, 교차 신문, 반박, 최종 변론을 포함한 전체 토론 흐름을 시뮬레이션합니다.
W&B Weave 시작이 막막하신가요?
Add a comment