NTTData - Evaluation scheme for agent-framework with open weight model
Created on May 29|Last edited on May 29
Comment
Background & Goal
AI Agentに関心が集まる中、セキュアな環境での実装や低コストの実現を目指した、Open Weightモデルを利用したAgentシステムに関心が集まりつつある。実際、OpenAI Agent SDKで動くLLMを軽量なモデルに入れ替えると動かないといった問題がある。どのモデルであれば、どのケースでAI Agentが動くかを確認するため、W&B Weaveを用いた評価体系を構築する。
Evaluation Scheme (version1)
まずはTask PlanningとFunction calling(特にMCP)がOpen Weightのモデルで実行できるかを確認する。おおかな流れを以下にします。
- 様々なシナリオを含んだ評価データセットを作成する
- 評価シナリオに対して、様々なOpen weightモデル・Agent frameの組み合わせを試し、Task PlanningとFunction callingの成功率を一覧表示する
- 評価スキームとしては、W&B Evaluation Loggerを用いる。Evaluation Loggerを利用することで、Task PlanningとFunction callingの成功率(集計値)と個別ケースが成功したかどうかがわかる
- コールされたFunction(MCP)やそれぞれのステップにおける入出力は@weave.op()やインテグレーションを用いてトラックする
- 基本的には関数の上に@weave.op()を記載することでトラックができるが、MCPやOpenAI Agent SDKとW&B Weaveのインテグレーションなど、便利なインテグ��ーションは利用する
Add a comment