Iterieren Sie GenAI-Anwendungen mit Bewertungen

Messen und iterieren Sie die Leistung von KI-Anwendungen

Entwickler, die mit LLMs arbeiten, müssen die Leistung ihrer Modelle kontinuierlich evaluieren, um in der Produktion ständig iterieren und eine robuste Leistung liefern zu können. 

Verwenden Sie Bewertungen, um alle Leistungsmetriken Ihrer Anwendung einfach zu organisieren und zu vergleichen. Messen und validieren Sie die Genauigkeit von Modellen in einer Vielzahl von Szenarien. Bauen Sie Genauigkeit mit systematischen Bewertungen auf, um verschiedene Aspekte Ihrer nicht-deterministischen GenAI-Anwendungen zu bewerten und sie mit Zuversicht einzusetzen.

Bewerten Sie IhreGenAI-Anwendungen auf leichte, anpassbare Weise

Evaluations wurde speziell für Entwickler entwickelt und ermöglicht eine einfache Protokollierung und Vergleichung der LLM-Leistung. Verwenden Sie unsere Scorer oder definieren Sie Ihren eigenen Evaluations-Score, um Funktionen zu erstellen, die so komplex oder einfach sind, wie Sie sie für Ihren Anwendungsfall zur Bewertung verschiedener Dimensionen der Leistung Ihrer Anwendung benötigen.

Gehen Sie darüber hinaus"Stimmungschecks"

Erstellen Sie automatische Auswertungen, damit Sie zuverlässig iterieren können. Gehen Sie auf schwierige Beispiele ein, sehen Sie, welche Daten für jeden Zwischen-Input verwendet wurden, und finden Sie die genaue Ursache des Problems heraus.

Unbegrenzte Skalierbarkeit, reaktionsschnelle Benutzeroberfläche

100K+

Visualisieren Sie Experimente interaktiv in jedem Maßstab, keine Begrenzung der sichtbaren Durchläufe

1000’s

von Metriken mit Korrelationen

Volle Wiedergabetreue

Diagramme, bei denen jede Datenspitze im Graphen sichtbar ist

Hyperscale-Datenerfassung

1M+

Datenpunkte pro Sekunde Aufnahmegeschwindigkeit

Redundanz

Kontrollen zur Vermeidung von Datenverlust

Eingebaut

Unterstützung für verteiltes Training

Langzeitexperimente

Führen Sie Forking aus

zur Überwachung monatelanger Experimente

Wiederholung

Mechanismus, wenn ein Teil der Aufnahme aufgrund von System- oder Netzwerkproblemen fehlschlägt

Asynchronous

Aufnahme von Streamingdaten

Schaffen Sie Strenge mit einemsystematisch und organisiert Bewertungsrahmen

Geben Sie Ihrem Team das nötige Vertrauen zum Bereitstellen von GenAI-Anwendungen, indem Sie alle wichtigen Elemente an einem einheitlichen Ort verfolgen und verwalten. Skalieren Sie Ihre Bewertungen, damit Sie vertrauensvoll mit dem neuesten Modell, der neuesten Eingabeaufforderung oder der neuesten Technik experimentieren können.

Vorgefertigte Scorer oder bringen Sie Ihren eigenen mit

Weave wird mit einer Reihe von branchenüblichen Scorern ausgeliefert und wir machen es Ihnen auch leicht, Ihren eigenen Scorer zu definieren.

Leaderboards

Fassen Sie Bewertungen in Bestenlisten mit den besten Leistungen zusammen und geben Sie diese in Ihrem gesamten Unternehmen weiter.

Online-Bewertungen

Führen Sie Auswertungen für Live-Produktionsablaufverfolgungen durch. Dies ist nützlich, wenn Sie nicht über einen kuratierten Auswertungsdatensatz verfügen.

				
					import wandb

# 1. Start a W&B run
run = wandb.init(project="my_first_project")

# 2. Save model inputs and hyperparameters
config = wandb.config
config.learning_rate = 0.01

# 3. Log metrics to visualize performance over time
for i in range(10):
 run.log({"loss": 2**-i})
				
			
				
					import weave
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

# Initialize Weave with your project name
weave.init("langchain_demo")

llm = ChatOpenAI()
prompt = PromptTemplate.from_template("1 + {number} = ")

llm_chain = prompt | llm

output = llm_chain.invoke({"number": 2})

print(output)
				
			
				
					import weave
from llama_index.core.chat_engine import SimpleChatEngine

# Initialize Weave with your project name
weave.init("llamaindex_demo")

chat_engine = SimpleChatEngine.from_defaults()
response = chat_engine.chat(
    "Say something profound and romantic about fourth of July"
)
print(response)
				
			
				
					import wandb
# 1. Start a new run
run = wandb.init(project="gpt5")
# 2. Save model inputs and hyperparameters
config = run.config
config.dropout = 0.01
# 3. Log gradients and model parameters
run.watch(model)
for batch_idx, (data, target) in enumerate(train_loader):
...
   if batch_idx % args.log_interval == 0:
   # 4. Log metrics to visualize performance
      run.log({"loss": loss})
				
			
				
					import wandb
‍
# 1. Define which wandb project to log to and name your run
run = wandb.init(project="gpt-5",
run_name="gpt-5-base-high-lr")
‍
# 2. Add wandb in your `TrainingArguments`
args = TrainingArguments(..., report_to="wandb")
‍
# 3. W&B logging will begin automatically when your start training your Trainer
trainer = Trainer(..., args=args)
trainer.train()
				
			
				
					from lightning.pytorch.loggers import WandbLogger

# initialise the logger
wandb_logger = WandbLogger(project="llama-4-fine-tune")

# add configs such as batch size etc to the wandb config
wandb_logger.experiment.config["batch_size"] = batch_size

# pass wandb_logger to the Trainer 
trainer = Trainer(..., logger=wandb_logger)

# train the model
trainer.fit(...)

				
			
				
					import wandb
# 1. Start a new run
run = wandb.init(project="gpt4")
‍
# 2. Save model inputs and hyperparameters
config = wandb.config
config.learning_rate = 0.01
‍
# Model training here
# 3. Log metrics to visualize performance over time
‍
with tf.Session() as sess:
# ...
wandb.tensorflow.log(tf.summary.merge_all())
				
			
				
					import wandb
from wandb.keras import (
   WandbMetricsLogger,
   WandbModelCheckpoint,
)
‍
# 1. Start a new run
run = wandb.init(project="gpt-4")
‍
# 2. Save model inputs and hyperparameters
config = wandb.config
config.learning_rate = 0.01
...  # Define a model
# 3. Log layer dimensions and metrics
wandb_callbacks = [
   WandbMetricsLogger(log_freq=5),
   WandbModelCheckpoint("models"),
]
model.fit(
   X_train, y_train, validation_data=(X_test, y_test),
   callbacks=wandb_callbacks,
)
				
			
				
					import wandb
wandb.init(project="visualize-sklearn")
‍
# Model training here
# Log classifier visualizations
wandb.sklearn.plot_classifier(clf, X_train, X_test, y_train, y_test, y_pred, y_probas, labels,
model_name="SVC", feature_names=None)
‍
# Log regression visualizations
wandb.sklearn.plot_regressor(reg, X_train, X_test, y_train, y_test,  model_name="Ridge")
‍
# Log clustering visualizations
wandb.sklearn.plot_clusterer(kmeans, X_train, cluster_labels, labels=None, model_name="KMeans")
				
			
				
					import wandb
from wandb.xgboost import wandb_callback
‍
# 1. Start a new run
run = wandb.init(project="visualize-models")
‍
# 2. Add the callback
bst = xgboost.train(param, xg_train, num_round, watchlist, callbacks=[wandb_callback()])
‍
# Get predictions
pred = bst.predict(xg_test)
				
			

Sichere Bereitstellung für Unternehmen

Saas cloud

Dedicated cloud

KI-Aufzeichnungssystem

Verfolgen Sie alle Auswertungsdaten zentral, um die Reproduzierbarkeit sicherzustellen, die Zusammenarbeit zu fördern und die Iteration zu beschleunigen.

Gewichte & Die Biases-Plattform hilft Ihnen, Ihren Arbeitsablauf von Anfang bis Ende zu optimieren.

Modell

Experiment

Tracking und Visualisierung ML-Experimente

fegen

Optimierung Hyperparameter

Modellregister

Registrierung und Verwaltung von ML-Modellen

Automatisierung

Lösen Sie Workflows automatisch aus

Start

Verpackung und Betrieb ML-Workflow-Aufgaben

salzig

Beweis

Entdecken Sie
LLM-Debug

Auswertung

Strenge Bewertung von GenAI-Anwendungen

Kern

Relikte

ML-Pipeline-Versionierung und -Management

Tisch

Visualisierung und Erkundung von ML-Daten

Bericht

Dokumentieren und teilen Sie ML-Einblicke

SDK

Protokollieren Sie ML-Experimente und -Artefakte im großen Maßstab