Evaluations Articles & Tutorials by Weights & Biases

Clear Search

English

Evaluating Claude 3.7 Sonnet: Performance, reasoning, and cost optimization

Brett Young

Mar 05

Articles, Weave, Evaluations, GenAI, Tutorial, Experiment, Agents

Building better evaluations with high-quality data

Russell Ratshin

Mar 03

Articles, Weave, Evaluations, Agents

Iterating with W&B Weave to build the world’s best AI programming agent

Kimberly Madia

Jan 31

Articles, Weave, Evaluations, GenAI, Agents

Building better AI applications: Why evaluations matter

Russell Ratshin

Jan 31

Articles, Weave, Evaluations, GenAI

AI Guardrails: Coherence scorers

Brett Young

Jan 24

Articles, Weave, Evaluations, GenAI, Agents

DeepSeek-R1 vs OpenAI o1: A guide to reasoning model setup and evaluation

Brett Young

Jan 24

Articles, GenAI, Experiment, Evaluations, Weave

AI guardrails: Toxicity scorers

Brett Young

Jan 22

Articles, GenAI, Weave, Evaluations

Building a best in class AI programmer with Weights & Biases Weave

Shawn Lewis

Jan 22

Articles, Weave, GenAI, Evaluations, Experiment

AI guardrails: Bias scorers

Brett Young

Jan 16

Articles, Weave, GenAI, Evaluations

Leveraging foundation models at financial institutions

Justin Tenuto

Jan 15

Articles, Financial, Weave, GenAI, Agents, Evaluations

AI scorers: Evaluating AI-generated text with BLEU

Brett Young

Jan 14

Articles, Weave, Evaluations

AI scorers: Evaluating AI-generated text with ROUGE

Brett Young

Jan 14

Articles, Weave, GenAI, Evaluations

1 2 3

Iterate on AI agents and models faster. Try Weights & Biases today.

Popular Topics

Task

Framework / Integration

Domain