Skip to main content

NTTData - Evaluation scheme for agent-framework with open weight model

Created on May 29|Last edited on May 29

Background & Goal

AI Agentに関心が集まる中、セキュアな環境での実装や低コストの実現を目指した、Open Weightモデルを利用したAgentシステムに関心が集まりつつある。実際、OpenAI Agent SDKで動くLLMを軽量なモデルに入れ替えると動かないといった問題がある。どのモデルであれば、どのケースでAI Agentが動くかを確認するため、W&B Weaveを用いた評価体系を構築する。

Evaluation Scheme (version1)

まずはTask PlanningとFunction calling(特にMCP)がOpen Weightのモデルで実行できるかを確認する。おおかな流れを以下にします。

  1. 様々なシナリオを含んだ評価データセットを作成する
    1. 評価データセットはW&B Datasetに登録をしてversion管理する
    2. データセットの中身は、例えばPrompt・Expected functions・Expected Planなど。(例:Tool useの評価データセット例
  2. 評価シナリオに対して、様々なOpen weightモデル・Agent frameの組み合わせを試し、Task PlanningとFunction callingの成功率を一覧表示する
    1. 評価スキームとしては、W&B Evaluation Loggerを用いる。Evaluation Loggerを利用することで、Task PlanningとFunction callingの成功率(集計値)と個別ケースが成功したかどうかがわかる
  3. コールされたFunction(MCP)やそれぞれのステップにおける入出力は@weave.op()やインテグレーションを用いてトラックする
    1. 基本的には関数の上に@weave.op()を記載することでトラックができるが、MCPやOpenAI Agent SDKとW&B Weaveのインテグレーションなど、便利なインテグ��ーションは利用する