NTTData - Evaluation scheme for agent-framework with open weight model

Created on May 29|Last edited on May 29
Comment
﻿
Background & GoalAI Agentに関心が集まる中、セキュアな環境での実装や低コストの実現を目指した、Open Weightモデルを利用したAgentシステムに関心が集まりつつある。実際、OpenAI Agent SDKで動くLLMを軽量なモデルに入れ替えると動かないといった問題がある。どのモデルであれば、どのケースでAI Agentが動くかを確認するため、W&B Weaveを用いた評価体系を構築する。
Evaluation Scheme (version1)まずはTask PlanningとFunction calling（特にMCP）がOpen Weightのモデルで実行できるかを確認する。おおかな流れを以下にします。
﻿
様々なシナリオを含んだ評価データセットを作成する
評価データセットはW&B Datasetに登録をしてversion管理する
データセットの中身は、例えばPrompt・Expected functions・Expected Planなど。（例：Tool useの評価データセット例）
評価シナリオに対して、様々なOpen weightモデル・Agent frameの組み合わせを試し、Task PlanningとFunction callingの成功率を一覧表示する
評価スキームとしては、W&B Evaluation Loggerを用いる。Evaluation Loggerを利用することで、Task PlanningとFunction callingの成功率（集計値）と個別ケースが成功したかどうかがわかる
コールされたFunction（MCP）やそれぞれのステップにおける入出力は@weave.op()やインテグレーションを用いてトラックする
基本的には関数の上に@weave.op()を記載することでトラックができるが、MCPやOpenAI Agent SDKとW&B Weaveのインテグレーションなど、便利なインテグレーションは利用する
﻿
﻿
Add a comment