NVIDIA Enterprise AI Factory와 Weights & Biases로 AI 에이전트의 엔터프라이즈 ROI 가속화

새로운 NVIDIA Enterprise AI Factory로 에이전트를 구축하는 방법 자세히 알아보기 이 글은 AI로 번역되었습니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
Comment
AI 에이전트는 인공지능을 활용해 환경을 스스로 인지하고, 의사결정을 내리며, 특정 목표 달성을 위해 행동하는 소프트웨어를 의미하며, 이는 엔터프라이즈의 내부 운영과 고객과의 대외적 상호작용 방식을 모두 혁신할 수 있습니다. 그러나 생성형 AI의 비결정적 특성 때문에 높은 품질을 확보하고 유지하는 일, 그리고 애플리케이션을 보호하고 모니터링하는 일은 큰 도전이며, 이로 인해 모든 규모의 엔터프라이즈가 AI 에이전트를 자신 있게 배포하는 데 어려움을 겪을 수 있습니다. 
이 블로그에서는 Weights & Biases 플랫폼과 NVIDIA NIM, NVIDIA NeMo 마이크로서비스를 포함한 NVIDIA Enterprise AI Factory 검증된 설계를 결합해 AI 에이전트를 구축, 반복 개선, 모니터링, 보호하는 데 필요한 구성 요소와 도구를 어떻게 제공하는지, 그리고 프로덕션에 배포된 후에도 AI 에이전트를 지속적으로 개선하는 방법을 다룹니다. 
NVIDIA Enterprise AI Factory란 무엇인가요? Computex 2025에서 발표된 NVIDIA Enterprise AI Factory는 온프레미스 데이터 센터에서 NVIDIA Blackwell 플랫폼 위에 에이전트형 AI, 물리 AI, HPC 워크로드를 개발, 배포, 관리하기 위한 가이드를 제공하는 풀스택 검증 설계입니다. 엔터프라이즈 IT를 위해 설계된 이 아키텍처는 NVIDIA Blackwell 가속 컴퓨팅, NVIDIA 네트워킹, NVIDIA AI Enterprise 소프트웨어와 스토리지를 통합해, 배포 위험을 줄이면서 엔터프라이즈 공장 배포에서 더 빠른 가치 실현의 AI를 가능하게 합니다.  
AI 플라이휠
﻿
AI 플라이휠은 지능형 AI 추론 에이전트를 구동하는 핵심입니다. AI 플라이휠은 크게 추론 워크플로와 학습 워크플로의 두 구성 요소로 이루어져 있습니다. 추론 워크플로는 에이전트를 구축하고 상호작용하며 모니터링하는 과정, 그리고 사용자 관점과 시스템 관점에서 에이전트의 피드백을 수집하는 과정을 의미합니다. 학습 워크플로는 학습 및 평가용 데이터셋 생성, 모델 학습과 미세 조정, 학습 실행 결과 분석 등 AI 모델 자체에 초점을 둡니다. 이 전체 루프를 완성하기 위해 플라이휠에서 매우 중요한 단계는 모든 입력과 출력, 그리고 활용되는 AI 모델을 중앙 저장소에 카탈로그화하여 기록하는 것입니다. 이는 규제 산업이나 고객 대면형 활용 사례에서 사용되는 AI 에이전트에 특히 중요합니다.
학습 워크플로우모든 AI 에이전트의 토대는 에이전트를 구동하는 생성형 AI 모델입니다. 산업별·기업별 데이터와 활용 사례를 가진 많은 조직에서는 기성 모델만으로는 에이전트를 구동하는 데 필요한 성능을 확보하기 어렵습니다. 이런 조직은 자체적으로 생성형 AI 모델을 학습하거나, 더 일반적으로는 Llama, Mistral 같은 오픈 소스 모델을 미세 조정합니다. 
미세 조정할 모델을 결정했다면, 첫 단계는 모델 미세 조정에 사용할 학습 데이터셋을 생성하는 것입니다. 이를 위해 NVIDIA NeMo Curator는 고품질 데이터셋을 만드는 데 필요한 구성 요소를 제공합니다. 이 도구는 데이터 정제, 중복 제거, 필터링, 서식 지정 과정을 간소화하여 학습 데이터가 성능에 최적화되고 특정 활용 사례에 맞게 정렬되도록 보장합니다. 특히 대규모 도메인 특화 데이터를 안전하고 신뢰성 있게 처리해야 하는 엔터프라이즈 환경에서 AI 모델 개발을 위해 매우 유용합니다. 학습 데이터셋을 생성한 후에는 W&B Artifacts에 기록할 수 있습니다. W&B Artifacts는 데이터셋의 버전 이력을 관리하고, 어떤 학습 실행이 해당 데이터셋을 활용했는지도 추적합니다. 이는 재현성과 디버깅을 위해 매우 중요합니다.  
﻿
﻿
데이터셋을 준비하고 모델을 선택했다면, 이제 모델을 미세 조정할 차례입니다. NVIDIA NeMo Customizer는 최소한의 인프라 오버헤드로 기업이 자체 보유 데이터에 대해 대규모 언어 모델(LLM)을 미세 조정할 수 있도록 지원합니다. 이 도구는 감독 학습 기반 미세 조정(SFT)과 LoRA와 같은 파라미터 효율적 튜닝 기법을 지원해, 조직이 도메인 특화 작업에 맞춰 파운데이션 모델을 개인화할 수 있게 합니다. 
NVIDIA NeMo Customizer는 온프레미스, 클라우드, 하이브리드 환경 전반에서 효율적이고 확장 가능하며 안전한 커스터마이제이션 워크플로를 보장합니다. NeMo Customizer는 Weights & Biases의 Experiment Tracking과 직접 통합되어 모든 하이퍼파라미터, 학습 지표, 시스템 지표(예: GPU 사용량, 메모리), 모델 아티팩트(예: 체크포인트, 학습된 가중치, 로그), 코드 버전 관리 및 실행 환경 정보를 기록합니다.
﻿
﻿
이제 모델을 미세 조정했으니, 성능을 확인해 보겠습니다. 이를 위해 표준화된 벤치마크와 맞춤형 벤치마크로 대규모 언어 모델의 성능과 품질을 평가하는 마이크로서비스인 NVIDIA NeMo Evaluator를 사용합니다. 이 도구는 요약, 분류, 질의응답 같은 작업 전반에서 모델 출력의 정확도, 관련성, 견고성을 측정할 수 있게 해 주어, 미세 조정과 배포 의사결정을 지원합니다. 평가 결과는 Weights & Biases Weave에서 분석할 수 있으며, 서로 다른 모델 간이나 특정 모델의 다양한 버전 간 결과를 비교할 수도 있습니다. 
﻿
마지막으로, 모델이 평가를 마치고 승인을 받으면 Weights & Biases Registry에 등록할 수 있습니다. Registry는 모델 개발 이력과 모델이 활용되는 단계(프로토타입, 프로덕션 등)를 기록합니다. 이 Registry는 전사적으로 공유할 수 있으며, 조직은 새로운 모델을 만들고 활용하는 과정에서 모델 리더보드를 구성할 수 있습니다. 
﻿
이제 추론 워크플로로 넘어갈 준비가 됐습니다!
추론 워크플로우LLM 준비가 끝났으니 이제 AI 에이전트를 구축할 차례입니다. 첫 단계는 LLM을 추론 엔진에 배포하는 것입니다. NVIDIA NIM 마이크로서비스는 표준 API로 엔터프라이즈급 생성형 AI 모델을 제공하는 사전 구축·최적화 컨테이너로, 빠르고 확장 가능한 배포를 지원합니다. NVIDIA 가속 컴퓨팅에서 효율적으로 실행되도록 설계되어, 복잡한 모델 서빙 인프라를 추상화함으로써 애플리케이션에 AI를 쉽게 통합할 수 있게 합니다.

엔터프라이즈 고유 데이터에서 정보나 컨텍스트를 수집해야 하는 활용 사례에서는 흔히 RAG 기법을 사용합니다. NVIDIA NeMo Retriever는 RAG 워크플로를 위해 관련 문서나 데이터 청크를 빠르고 정확하게 검색할 수 있도록 하는 NIM 마이크로서비스 컬렉션입니다. 임베딩과 재순위 지정을 위한 NIM 기반 모델을 포함해, 엔터프라이즈 지식을 근거로 출력을 정합화함으로써 문맥 이해와 응답 품질을 향상합니다.
NIM으로 배포한 LLM 위에 에이전트를 구축하는 과정에서, 기업은 프롬프트를 실험하고, 트레이스를 분석·디버깅하며, AI 에이전트의 플로우를 파악해 기대한 대로 동작하는지 확인하게 됩니다. W&B Weave는 이 워크플로에 최적화되어 있으며, 모든 입력과 출력, 관련 메타데이터를 체계적으로 캡처하고 개발자 친화적인 UI로 보여 줍니다. AI 에이전트는 작업을 순차적인 단계로 분해하는데, W&B Weave의 Trace Tree는 이러한 복잡한 전개를 시각화해 반복 속도를 높여 줍니다. AI 에이전트를 위한 W&B Weave 자세히 보기 여기에서 확인할 수 있습니다. 
﻿
AI 에이전트의 성능을 개선하는 데 가장 중요한 단계 중 하나는 최종 사용자의 피드백을 활용하는 것입니다. W&B Weave는 휴먼 어노테이션 템플릿과 같은 피드백 수집 기능을 제공하여, 애플리케이션의 최종 사용자가 AI 에이전트에 실시간으로 피드백을 남길 수 있게 합니다. 이렇게 수집된 정보는 W&B Weave 인터페이스에서 개발자에게 요약 제공되어, 에이전트 성능을 어디에서 어떻게 개선해야 하는지에 필요한 근거를 제공합니다. 
﻿
애플리케이션이 배포되면, 프로덕션 트레이스 모니터링이 핵심 워크플로가 됩니다. 생성형 AI 애플리케이션의 프로덕션 트레이스를 모니터링하는 것은 모델 출력이 시간이 지나도 정확하고 안전하며 사용자 기대에 부합하도록 유지하기 위해 필수적입니다. 이러한 시스템은 변화하는 데이터와 사용 패턴이 존재하는 동적인 환경에서 운영되므로, 모델 드리프트, 환각, 성능 저하와 같은 문제를 조기에 감지하는 것이 무엇보다 중요합니다. 
Weave를 사용하면 팀은 입력 프롬프트와 모델 버전부터 중간 계산과 최종 출력까지 AI 파이프라인의 모든 단계를 인터랙티브한 엔드 투 엔드 시각화 안에서 계속 추적할 수 있습니다. 이를 통해 개발자와 이해관계자는 이상 징후를 신속히 진단하고, 배포 간 동작을 비교하며, 실제 환경에서 모델 성능을 지속적으로 개선할 수 있습니다.
﻿
마지막으로, AI 에이전트의 성능을 높이기 위해 기반 LLM을 다시 튜닝해야 하는 시점이 올 수 있습니다. 플라이휠을 마무리하거나 다시 시작하려면 새로운 학습 데이터셋이 필요합니다. 이 데이터셋은 AI 에이전트와 상호작용한 최종 사용자의 모든 피드백과 인터랙션을 바탕으로 구성되어야 합니다. 사용자는 Weave Traces에서 콜을 선택해 새 데이터셋에 추가함으로써 Weave 내에서 직접 데이터셋을 생성할 수 있습니다. 그런 다음 재학습에 사용할 특정 트레이스를 선택해 수집과 포매팅 작업을 단순화할 수 있습니다. 이 기능을 활용하는 방법에 대한 자세한 내용은 다음에서 확인할 수 있습니다 여기이제 플라이휠을 다시 가동하기 위해, AI 에이전트를 구동하는 LLM을 재학습하거나 파인튜닝할 준비가 되었습니다. 
﻿
﻿
 이 글은 AI 번역본입니다. 오역이 의심되는 부분은 댓글로 알려주세요. 원문 보고서는 다음 링크에서 확인할 수 있습니다: 원문 보고서 보기﻿
﻿
Add a comment