Skip to main content

CoreWeave로 구동되는 W&B Inference 소개

Weights & Biases에서 귀하의 고유한 사용 사례에 맞는 최적의 오픈소스 모델을 찾아보세요 이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요
Created on September 15|Last edited on September 15
AI 에이전트와 애플리케이션을 반복 개선하다 보면, 특정 작업에 가장 효과적인 LLM이 무엇인지 파악하고 싶을 때가 많습니다. 그러나 LLM을 실험하고 평가하는 과정에는 여러 운영상의 복잡성이 따릅니다. 보통 팀은 여러 모델 호스팅 제공자에 각각 가입하거나 직접 모델을 배포해야 하고, 별도의 계정을 관리하며, 다양한 API 키를 처리하고, 트레이싱과 관측을 위해 애플리케이션 코드를 계측해야 합니다. 이러한 방식은 불필요한 복잡성을 초래하고, 호스팅과 관측을 위해 단절된 여러 플랫폼을 동시에 다루도록 개발자를 몰아넣습니다.

W&B Inference: 오픈소스 모델을 쉽고 빠르게 액세스하고 탐색하세요

오늘 프리뷰로 공개된 W&B Inference powered by CoreWeave는 여러 모델 제공자를 관리하거나 직접 모델을 배포하는 추가 부담 없이, Weights & Biases 내에서 강력한 오픈소스 파운데이션 모델에 즉시, 통합된 방식으로 접근할 수 있게 해 이러한 과제를 해결합니다. Weights & Biases 계정에 로그인하고, 모델 카탈로그를 확인한 뒤, 하나 이상의 모델을 선택하여 직관적인 W&B Weave Playground에서 추론을 실행하거나 OpenAI-compatible API를 통해 호출하면 됩니다.
W&B Inference에는 W&B Weave가 제공하는 통합 관측 도구가 포함되어 있어 AI 애플리케이션을 신뢰 있게 평가하고 모니터링하며 반복 개선할 수 있습니다. Weave는 AI 에이전트와 애플리케이션 구축을 위한 종합 도구를 제공합니다. 여기에는 trace trees, evaluations, playground, human feedback, scorers, guardrails, monitors 등이 포함됩니다. 우리는 DeepSeek, Meta, Microsoft 등 주요 제공사의 인기 있는 오픈소스 모델 일부와 함께 W&B Inference를 출시했으며, 앞으로도 모델 선택 폭을 계속 확대할 예정입니다.

W&B Inference 직접 체험하기

소프트웨어 엔지니어링 팀이 AI 기반 코드 주석 애플리케이션을 최적화하려는 상황을 가정해 보겠습니다. 현재 팀은 대형 독점 LLM을 사용해 상세한 코드 주석을 생성하고 있지만, 사용량이 빠르게 증가하면서 주석 비용이 예산을 초과하고 있습니다. 주석 품질을 유지하면서 비용을 절감하기 위해, 팀은 더 작고 비용 효율적인 오픈소스 모델들을 대안으로 평가하기로 결정합니다.
W&B Inference를 사용하면 팀은 대체 모델을 신속하게 선택할 수 있습니다. 먼저 W&B Inference의 Hosted Models 페이지로 이동해 지원되는 오픈소스 모델을 검토하고, 주석 작업에 적합하면서 최근에 공개된 비용 효율적인 옵션에 집중합니다.
가장 인기 있고 성능이 뛰어난 오픈소스 LLM을 위한 W&B Inference Hosted Models 살펴보기
다음으로 팀은 별도의 설정 없이 W&B Weave Playground에서 기존 주석 시스템 프롬프트와 대표 사용자 프롬프트 샘플을 함께 실행합니다. 즉시 제공되는 나란히 비교를 통해, 어떤 소형 오픈소스 모델이 독점 모델과 유사한 성능을 내는지 빠르게 파악합니다.
특정 프롬프트에 가장 적합한 모델을 빠르게 파악하기 위해 W&B Weave Playground에서 여러 모델을 나란히 비교 실험하기
이 초기 평가를 마친 뒤, 팀은 통합된 Weave 기능을 활용해 과거 프롬프트로 더 포괄적인 평가를 수행하고, 독점 모델과 선택한 오픈소스 대안들이 생성한 출력을 비교합니다. 이 간소화된 평가는 어떤 모델이 품질과 비용의 균형을 가장 잘 맞추는지 확인해 줍니다.
모델을 선택한 뒤, 팀은 Hosted Models 인터페이스에서 바로 Model Overview 페이지로 이동해 즉시 사용할 수 있는 Python 코드 샘플을 가져와 선택한 오픈소스 모델을 애플리케이션에 빠르게 통합합니다. Weave는 프로덕션에서 트레이스를 수집하여 지속적인 모니터링과 연속적 개선을 지원합니다. 평가부터 구현까지 전 과정이 W&B Inference 내에서 매끄럽게 이루어지므로, 엔지니어링 시간을 크게 절약하고 observability를 단순화하며 주석 비용을 크게 줄일 수 있습니다.
import openai

client = openai.OpenAI(
# The custom base URL points to W&B Inference
base_url='https://api.inference.wandb.ai/v1',

# Get your API key from https://qa.wandb.ai/authorize
# Consider setting it in the environment as OPENAI_API_KEY instead for safety
api_key="<your-apikey>",

# Team and project are required for usage tracking
default_headers={
"OpenAI-Project": "<team>/<project>"
},
)

response = client.chat.completions.create(
model="meta-llama/Llama-3.1-8B-Instruct",
messages=[
{"role": "system", "content": "<system prompt goes here>"},
{"role": "user", "content": "<user code goes here>"}
],
)

print(response.choices[0].message.content)

애플리케이션을 최적화하고, 효과적으로 평가하며, 빠르게 반복하세요

W&B Inference는 모든 Weights & Biases 플랜에 무료 티어가 포함되어 있어 추가 선투자 비용 없이 즉시 탐색할 수 있습니다. Enterprise 플랜과 Pro 플랜을 사용하는 조직은 입력 및 출력 토큰 백만 개당 사용량 기반 요금으로 예산을 관리할 수 있습니다. 청구 계정에는 조직 전체에 걸친 모델 유형별 상세 토큰 사용량 보고서도 포함됩니다.
W&B Inference는 최신 오픈소스 모델을 손쉽게 탐색하고 평가하며 활용할 수 있도록 지원하여, 높은 정확도를 제공하고 W&B Weave LLM Observability 도구와 즉시 통합(out-of-the-box)되는 AI 애플리케이션 최적화를 가능하게 합니다. 또한 추가 계정 가입, 여러 API 키 관리, 추가 비용 발생 등의 지연이나 복잡함 없이 새로운 모델과 떠오르는 모델을 자유롭게 탐색할 수 있습니다.
오늘, 6월 17일부터 W&B Inference가 Weights & Biases 콘솔, Weave Playground, 그리고 Weave SDK를 통해 모든 W&B Weave 멀티테넌트 SaaS 고객에게 퍼블릭 프리뷰로 제공됩니다. 더 알아보고 시작하려면 W&B Inference를 참조하세요. 문서 그리고 W&B Inference 가격 페이지 또는 인기 있는 모델을 사용해 보세요 DeepSeek R1 W&B Weave를 통해 플레이그라운드.

이 글은 AI로 번역되었습니다. 오역이 있을 수 있으니 댓글로 알려 주세요. 원문 보고서는 다음 링크에서 확인할 수 있습니다: 원문 보고서 보기