Iterieren Sie GenAI-Anwendungen mit Bewertungen
Messen und iterieren Sie die Leistung von KI-Anwendungen
Entwickler, die mit LLMs arbeiten, müssen die Leistung ihrer Modelle kontinuierlich evaluieren, um in der Produktion ständig iterieren und eine robuste Leistung liefern zu können.
Verwenden Sie Bewertungen, um alle Leistungsmetriken Ihrer Anwendung einfach zu organisieren und zu vergleichen. Messen und validieren Sie die Genauigkeit von Modellen in einer Vielzahl von Szenarien. Bauen Sie Genauigkeit mit systematischen Bewertungen auf, um verschiedene Aspekte Ihrer nicht-deterministischen GenAI-Anwendungen zu bewerten und sie mit Zuversicht einzusetzen.
Bewerten Sie IhreGenAI-Anwendungen auf leichte, anpassbare Weise
Evaluations wurde speziell für Entwickler entwickelt und ermöglicht eine einfache Protokollierung und Vergleichung der LLM-Leistung. Verwenden Sie unsere Scorer oder definieren Sie Ihren eigenen Evaluations-Score, um Funktionen zu erstellen, die so komplex oder einfach sind, wie Sie sie für Ihren Anwendungsfall zur Bewertung verschiedener Dimensionen der Leistung Ihrer Anwendung benötigen.
Gehen Sie darüber hinaus"Stimmungschecks"
Erstellen Sie automatische Auswertungen, damit Sie zuverlässig iterieren können. Gehen Sie auf schwierige Beispiele ein, sehen Sie, welche Daten für jeden Zwischen-Input verwendet wurden, und finden Sie die genaue Ursache des Problems heraus.
Unbegrenzte Skalierbarkeit, reaktionsschnelle Benutzeroberfläche
100K+
Visualisieren Sie Experimente interaktiv in jedem Maßstab, keine Begrenzung der sichtbaren Durchläufe
1000’s
von Metriken mit Korrelationen
Volle Wiedergabetreue
Diagramme, bei denen jede Datenspitze im Graphen sichtbar ist
Hyperscale-Datenerfassung
1M+
Datenpunkte pro Sekunde Aufnahmegeschwindigkeit
Redundanz
Kontrollen zur Vermeidung von Datenverlust
Eingebaut
Unterstützung für verteiltes Training
Langzeitexperimente
Führen Sie Forking aus
zur Überwachung monatelanger Experimente
Wiederholung
Mechanismus, wenn ein Teil der Aufnahme aufgrund von System- oder Netzwerkproblemen fehlschlägt
Asynchronous
Aufnahme von Streamingdaten
Schaffen Sie Strenge mit einemsystematisch und organisiert Bewertungsrahmen
Geben Sie Ihrem Team das nötige Vertrauen zum Bereitstellen von GenAI-Anwendungen, indem Sie alle wichtigen Elemente an einem einheitlichen Ort verfolgen und verwalten. Skalieren Sie Ihre Bewertungen, damit Sie vertrauensvoll mit dem neuesten Modell, der neuesten Eingabeaufforderung oder der neuesten Technik experimentieren können.
Vorgefertigte Scorer oder bringen Sie Ihren eigenen mit
Weave wird mit einer Reihe von branchenüblichen Scorern ausgeliefert und wir machen es Ihnen auch leicht, Ihren eigenen Scorer zu definieren.
Leaderboards
Fassen Sie Bewertungen in Bestenlisten mit den besten Leistungen zusammen und geben Sie diese in Ihrem gesamten Unternehmen weiter.
Online-Bewertungen
Führen Sie Auswertungen für Live-Produktionsablaufverfolgungen durch. Dies ist nützlich, wenn Sie nicht über einen kuratierten Auswertungsdatensatz verfügen.
import wandb
# 1. Start a W&B run
run = wandb.init(project="my_first_project")
# 2. Save model inputs and hyperparameters
config = wandb.config
config.learning_rate = 0.01
# 3. Log metrics to visualize performance over time
for i in range(10):
run.log({"loss": 2**-i})
import weave
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
# Initialize Weave with your project name
weave.init("langchain_demo")
llm = ChatOpenAI()
prompt = PromptTemplate.from_template("1 + {number} = ")
llm_chain = prompt | llm
output = llm_chain.invoke({"number": 2})
print(output)
import weave
from llama_index.core.chat_engine import SimpleChatEngine
# Initialize Weave with your project name
weave.init("llamaindex_demo")
chat_engine = SimpleChatEngine.from_defaults()
response = chat_engine.chat(
"Say something profound and romantic about fourth of July"
)
print(response)
import wandb
# 1. Start a new run
run = wandb.init(project="gpt5")
# 2. Save model inputs and hyperparameters
config = run.config
config.dropout = 0.01
# 3. Log gradients and model parameters
run.watch(model)
for batch_idx, (data, target) in enumerate(train_loader):
...
if batch_idx % args.log_interval == 0:
# 4. Log metrics to visualize performance
run.log({"loss": loss})
import wandb
# 1. Define which wandb project to log to and name your run
run = wandb.init(project="gpt-5",
run_name="gpt-5-base-high-lr")
# 2. Add wandb in your `TrainingArguments`
args = TrainingArguments(..., report_to="wandb")
# 3. W&B logging will begin automatically when your start training your Trainer
trainer = Trainer(..., args=args)
trainer.train()
from lightning.pytorch.loggers import WandbLogger
# initialise the logger
wandb_logger = WandbLogger(project="llama-4-fine-tune")
# add configs such as batch size etc to the wandb config
wandb_logger.experiment.config["batch_size"] = batch_size
# pass wandb_logger to the Trainer
trainer = Trainer(..., logger=wandb_logger)
# train the model
trainer.fit(...)
import wandb
# 1. Start a new run
run = wandb.init(project="gpt4")
# 2. Save model inputs and hyperparameters
config = wandb.config
config.learning_rate = 0.01
# Model training here
# 3. Log metrics to visualize performance over time
with tf.Session() as sess:
# ...
wandb.tensorflow.log(tf.summary.merge_all())
import wandb
from wandb.keras import (
WandbMetricsLogger,
WandbModelCheckpoint,
)
# 1. Start a new run
run = wandb.init(project="gpt-4")
# 2. Save model inputs and hyperparameters
config = wandb.config
config.learning_rate = 0.01
... # Define a model
# 3. Log layer dimensions and metrics
wandb_callbacks = [
WandbMetricsLogger(log_freq=5),
WandbModelCheckpoint("models"),
]
model.fit(
X_train, y_train, validation_data=(X_test, y_test),
callbacks=wandb_callbacks,
)
import wandb
wandb.init(project="visualize-sklearn")
# Model training here
# Log classifier visualizations
wandb.sklearn.plot_classifier(clf, X_train, X_test, y_train, y_test, y_pred, y_probas, labels,
model_name="SVC", feature_names=None)
# Log regression visualizations
wandb.sklearn.plot_regressor(reg, X_train, X_test, y_train, y_test, model_name="Ridge")
# Log clustering visualizations
wandb.sklearn.plot_clusterer(kmeans, X_train, cluster_labels, labels=None, model_name="KMeans")
import wandb
from wandb.xgboost import wandb_callback
# 1. Start a new run
run = wandb.init(project="visualize-models")
# 2. Add the callback
bst = xgboost.train(param, xg_train, num_round, watchlist, callbacks=[wandb_callback()])
# Get predictions
pred = bst.predict(xg_test)
Sichere Bereitstellung für Unternehmen
Saas cloud
Dedicated cloud
KI-Aufzeichnungssystem
Verfolgen Sie alle Auswertungsdaten zentral, um die Reproduzierbarkeit sicherzustellen, die Zusammenarbeit zu fördern und die Iteration zu beschleunigen.
Some CTA Heading
Gewichte & Die Biases-Plattform hilft Ihnen, Ihren Arbeitsablauf von Anfang bis Ende zu optimieren.
Modell
Experiment
Tracking und Visualisierung ML-Experimente
fegen
Optimierung Hyperparameter
Modellregister
Registrierung und Verwaltung von ML-Modellen
Automatisierung
Lösen Sie Workflows automatisch aus
Start
Verpackung und Betrieb ML-Workflow-Aufgaben
salzig
Beweis
Entdecken Sie
LLM-Debug
Auswertung
Strenge Bewertung von GenAI-Anwendungen