최신 GenAI 강좌 공개 — LLM 앱: 평가
최소한의 인간 개입으로 AI 평가자를 구축, 최적화, 확장하는 기법을 익히세요. 프로그램적 점검과 LLM 기반 심판을 결합해 LLM 애플리케이션을 위한 신뢰할 수 있는 평가 파이프라인을 구축하는 방법을 배웁니다. 이 글은 AI 번역본입니다. 오역 가능성이 있다면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
Comment
최신 강좌를 소개하게 되어 매우 기쁩니다, LLM 앱: 평가여러분의 GenAI 애플리케이션을 위해 프로덕션 수준의 LLM judge를 설계·구축·배포하는 데 필요한 실무 역량을 갖출 수 있도록 설계되었습니다. 그리고 다른 모든 강좌와 마찬가지로, 등록은 전적으로 무료입니다.
Register now

Weights & Biases, Google, All Hands AI의 업계 전문가들이 이끄는 본 강좌는 평가의 기초부터 시작해 완전히 정렬된 LLM judge까지 단계적으로 구축합니다.
이 과정을 마치면 다음을 할 수 있습니다:
- LLM 애플리케이션 평가의 핵심 원칙, 구현 방법, 그리고 적절한 활용 사례를 이해하세요
- 작동하는 LLM judge를 만드는 방법을 배워보세요
- 최소한의 인간 개입으로 자동 평가를 정렬하세요
각 강의 챕터를 조금 더 깊이 살펴보겠습니다.
챕터 1: 평가 기본기
소개: LLM 평가의 기초Weights & Biases의 ML 엔지니어 Anish Shah가 이끄는 본 장에서는 지표, 데이터셋, 그리고 평가를 비즈니스 목표에 정렬하는 것의 중요성을 깊이 있게 다룹니다. 또한 정확성과 프라이버시가 핵심인 하이 스테이크 의료 사례를 통해 실무적 활용 방안을 설명합니다. 비정형 의료 데이터에서 엄격한 컴플라이언스 기준을 준수하면서 구조화된 인사이트를 추출하는 방법을 탐구하게 됩니다.
챕터 2: 프로그램적 평가와 LLM 평가
이 장에서는 소개합니다 프로그램적 평가 전략 그리고 방법 LLM judge를 활용해 확장하세요자동화된 점검을 만들고, JSON 스키마로 출력 결과를 검증하며, 생성된 텍스트의 프라이버시 컴플라이언스와 단어 수 제한 같은 핵심 요소를 평가하는 방법을 배우게 됩니다. 이 장에는 코드 diff의 품질 평가, 비정형 의료 입력에서 구조화된 데이터 추출, 동적인 환경에서 LLM 성능을 높이기 위한 프롬프트 정제 등 실습 예제가 포함됩니다.

챕터 3: LLM 평가자 구조화
W&B의 Ayush Thakur와 함께 다음 내용을 알아보세요: "추상적 개념을 객관적 기준으로 세분화하기—문법, 논리, 흐름과 같은—주관적 과제를 확장 가능하고 반복 가능한 프로세스로 전환합니다.” 이 원칙이 바로 수강생들이 구조화된 평가자를 설계하면서 얻게 될 실습 경험을 이끄는 기반입니다.
문법, 일관성, 논리적 구조 등 여러 지표에 따라 에세이를 평가하는 코드를 직접 다루면서, 인간 판단과의 정렬을 보장하는 방법을 익히게 됩니다. 또한 멀티모달 입력을 처리하는 전략과 평가자 프롬프트를 정제해 추론 정확도를 최적화하는 방법을 다루며, 복잡한 평가 시스템을 구축할 때 내재된 트레이드오프를 균형 있게 관리하는 법도 함께 설명합니다.
Get started
사례 연구: OpenHands로 에이전틱 시스템 평가
첫 번째 사례 연구에서 All Hands AI의 Graham Neubig은 두 가지 흥미로운 주제를 다룹니다: 에이전트를 활용해 LLM 판정자를 구축하기 그리고 에이전트 자체를 평가하기먼저 OpenHands가 코드 관리와 웹 내비게이션 같은 실전 과제를 수행하며 작동하는 LLM Judge를 만들고, 평가 결과를 Weights & Biases Weave에 기록하는 과정을 직접 확인하게 됩니다. 이어서 Graham이 OpenHands의 평가 프레임워크를 자세히 설명하며, GitHub CI/CD 평가 구성과 다단계 프로세스를 효율적으로 평가하는 방법을 안내합니다.
챕터 4: LLM 평가자 개선하기
LLM 평가자 정교화와 최적화 편향을 체계적으로 줄이고, 인간 판단과의 정합성을 높이며, 평가 효율을 향상하는 체계적인 접근을 포함합니다. 피드백 루프를 활용한 반복적 정교화, 명확성을 위한 구조화된 출력 도입, 정밀도와 ���반화 사이의 트레이드오프 분석 등 고급 기법을 배우게 됩니다. 실제 사례로는 도메인 특화 과제를 위한 평가자 프롬프트의 미세 조정과 정합성 신뢰도를 측정하기 위한 지표 활용이 포함되며, 예시는 다음과 같습니다:
- Cohen’s Kappa: 우연에 의한 일치 가능성을 보정하여 LLM 평가자와 인간 주석자 간의 합치도를 측정합니다.
- Kendall’s Tau: 순위 상관을 평가하며, 정렬된 출력이나 루브릭 기반 점수를 비교할 때 유용합니다.
- Spearman’s Rho: 순위 간의 단조 관계를 평가하여, 여러 데이터셋 전반에서의 정합성 일관성에 대한 통찰을 ���공합니다.
사례 연구: Google Gemmini, Imagen, Veo 2
Google의 Paige Bailey가 소개합니다 멀티모달 시스템을 평가하는 방법 Google의 최신 도구와 모델을 활용합니다. 이미지 생성에는 Imagen을, 동영상 합성에는 Veo 2를 어떻게 사용하는지 이해하고, 실제 응용 사례에서 이들의 성능을 평가하는 방법을 배우게 됩니다. 또한 Paige는 평가에 도구 사용을 통합할 때의 핵심 포인트를 설명하며, 출력의 근거를 명확히 제시하고 프로덕션 환경에서 신뢰성을 보장하는 것의 중요성을 강조합니다.

이 과정을 마치면, 감(가늠)이나 기성 평가 방식에서 벗어나, 귀하의 특정 활용 사례와 비즈니스 요구에 정렬된 자동 평가 LLM Judge를 자신 있게 구축하고 운용할 수 있는 지식과 역량을 갖추게 됩니다.
과정을 완료하고 프로덕션에 반영되기 전에 GenAI 앱의 문제를 미리 발견하세요.
Enroll now!
Add a comment