W&B Weave EvaluationLogger: A more flexible approach to evaluating AI applications