Skip to main content

더 나은 AI 애플리케이션을 위한 길: 평가가 중요한 이유

평가가 왜 중요한지, 어떤 평가가 의미 있는지, 그리고 W&B Weave가 더 나은 AI 애플리케이션을 더 빠르게 구축하도록 어떻게 돕는지에 대한 안내서 이 글은 AI로 번역되었습니다. 오역 가능성이 있다면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
유닛 테스트는 개발자가 애플리케이션의 특정 부분—주로 개별 함수나 메서드—이 의도한 대로 동작하는지 검증하기 위해 만드는 자동화된 검증 절차입니다. 전통적인 소프트웨어에서는 각 테스트가 실행될 때마다 미리 정해진 특정한 결과를 일관되게 산출할 것이라고 기대하는 것이 합리적입니다. 그러나 대규모 언어 모델을 프로덕션 AI 애플리케이션에 활용하는 방식을 탐색하는 현재에는 더 이상 그런 전제가 성립하지 않습니다.
왜? LLM은 비결정적이기 때문입니다같은 질문을 여러 번 해도 매번 같은 답을 받는다는 보장은 없습니다. 이는 조건문 로직으로 예측 가능한 출력을 내도록 정밀하게 코드를 작성할 수 있는 전통적인 소프트웨어 개발과 크게 대조됩니다.
LLM 평가를 AI 애플리케이션을 위한 유닛 테스트처럼 생각할 수 있습니다. 평가를 수행하면 개선이 필요한 지점을 찾아 일관성을 높일 수 있고, 최종 사용자가 유사하면서도 정확한 응답을 받도록 보장할 수 있습니다.
애플리케이션 테스트 방식의 이러한 변화 사례로 다음을 생각해 볼 수 있습니다. 오늘날 기본적인 AI 챗봇을 만드는 일은 빠르고 쉽습니다. 불과 몇 년 전만 해도 대규모 프로젝트였을 작업이 이제는 노코드(또는 로우코드) 도구, 간단한 Python 스크립트, 혹은 ChatGPT 요청에 대한 응답으로 제공된 코드를 통해 구현할 수 있습니다.


위의 챗봇이 가진 문제는 겉보기에는 좋아 보이고 성능도 준수할 수 있지만, 실제로는 예측 불가능하며 잠재적으로 위험할 수도 있다는 점입니다. 최종 사용자에게 정확하고 신뢰할 수 있는 답변을 제공해야 하는 실제 환경에 AI 애플리케이션을 투입하려면, 엄격한 평가를 통해 강도 높은 하드닝과 실전 수준의 테스트가 필수입니다. LLM 상호작용에 대한 주관적 인상에 기반한 이른바 “바이브 체크”는 빈번히 수행하더라도 출발점으로는 괜찮지만, 프로덕션급 품질을 보장하기에는 결코 충분하지 않습니다. 일반 사례, 코너 케이스, 엣지 케이스를 지속적으로 평가하지 않으면, 개발자는 챗봇의 동작에 대해 필요한 가시성과 통제력을 확보하지 못하게 됩니다.
물론 지속적인 평가의 필요성은 초기 테스트 이후에도 끝나지 않습니다. 애플리케이션의 변경이나 기반 LLM 업데이트가 이루어지면, 프로덕션 AI 애플리케이션을 효과적으로 모니터링하기 위해서는 일관되면서도 발전하는 평가 전략이 반드시 포함되어야 합니다.
AI 애플리케이션 데모나 프로토타입과 프로덕션급 애플리케이션 사이의 격차는 엄청납니다. 간단히 말해, AI 애플리케이션은 데모는 쉽지만 프로덕션화는 어렵습니다.
입력 W&B Weave, 신뢰할 수 있고 신뢰도를 갖춘 AI 애플리케이션을 자신 있게 구축하도록 돕는 AI 개발자 도구입니다.

평가 범주

AI 애플리케이션의 성능을 정의하고 측정할 때, 사용자 경험의 품질이 다차원적이라는 점을 반드시 인식해야 합니다. 성공 여부는 흑백논리로 단정할 수 없습니다.
애플리케이션이 프로덕션에 투입될 준비가 되었는지 여부를 판단하는 데에는 여러 요인이 영향을 미치지만, 그중에서도 핵심은 평가입니다. 어떤 평가 차원을 더 중요하게 보고 무엇을 덜 중요하게 볼지는 사용 사례와 관련 이해관계자의 우선순위에 따라 달라집니다.
LLM 기반 AI 애플리케이션의 성능을 평가할 때 가장 중요한 몇 가지 평가 차원을 살펴보겠습니다:

정확도

LLM에 동일한 질문을 스무 번 반복해서 던지면 매번 조금씩 다른 스무 가지 답변을 받을 가능성이 높을 뿐만 아니라, 그중 어느 것도 정답이라는 보장도 없습니다. 평가를 통해 정확도를 개선하면 최종 사용자가 잘못된 응답을 받지 않도록 할 수 있습니다.

지연 시간

쿼리의 난이도에 대한 사용자의 인식에 따라, 최종 사용자가 응답을 기다릴 수 있는 최대 대기 시간이 정해집니다. 복잡한 수학 퍼즐은 간단한 산술 문제보다 해결에 더 많은 시간이 걸릴 가능성이 큽니다. 모델이나 프롬프트에 따라 응답 시간이 더 빠를 수도 있습니다. 어떤 수준의 지연 시간이 수용 가능한지 이해하는 것이 중요합니다.

비용

LLM API 호출의 토큰당 비용은 보통 몇 센트 이하에 불과하지만, 이런 비용도 빠르게 누적될 수 있습니다. ���용 가능한 성능의 가격은 얼마이며 그 비용은 타당한가요? 개발자는 성공적인 AI 애플리케이션에서 발생할 것으로 예상되는 비용을 항상 인지해야 합니다. 평가는 이러한 예측을 가능하게 하는 비용 지표를 개발자에게 제공합니다.

안전성

안전성에는 두 가지 측면이 있습니다. 첫째, AI 개발자는 최종 사용자가 LLM을 속이거나 악용하려는 모든 시도에 유의해야 합니다. AI 애플리케이션은 보안 조치를 무력화하려는 악의적 의도를 차단해야 합니다. 둘째, AI 애플리케이션은 최종 사용자가 유해하거나 오해를 불러일으키는, 또는 해로운 정보를 받지 않도록 보호해야 합니다. 평가는 이러한 보호 장치가 AI 애플리케이션과 최종 사용자를 모두 안전하게 지킬 수 있도록 제대로 갖추어져 있는지 확인하는 데 도움이 됩니다.


한 차원의 성능을 높이기 위해 다른 차원의 성능을 희생해야 하는 트레이드오프가 필요할 수 있습니다. 예를 들어, 더 정확한 응답은 지연 시간이 늘어날 수 있는 반면, 덜 정확한 응답은 생성에 걸리는 시간이 더 짧을 수 있습니다.
그렇다 해도, 어떤 트레이드오프가 수용 가능한지는 AI 애플리케이션의 목적에 따라 달라집니다. 항공권 예약이나 금융 의사결정을 맡은 AI 에이전트는 오류 허용 범위가 매우 좁으므로, 응답 시간이 조금 더 길어지더라도 사용자의 인내를 요청하는 것이 타당합니다. 반면, 흥행한 영화에 어떤 배우가 출연했는지 같은 중요도가 낮은 질문의 답을 위해 오래 기다릴 사람은 없습니다.
비용이 중요한 요인이라면 정확도 요구 수준을 완화하는 것도 고려할 수 있습니다. 예를 들어 프롬프트의 토큰 길이를 줄이면 비용이 낮아집니다. 더 비싸고 대규모의 모델을 사용하거나, 더 긴 프롬프트와 RAG 콘텐츠를 활용하면 정확도가 높아지고 환각 가능성이 줄어들 수 있지만, 이러한 정확도 향상에는 그에 상응하는 비용이 듭니다.

평가


평가는 AI 애플리케이션 개발의 모든 단계—최초 프로토타입 구축부터 최적화와 프로덕션화, 그리고 프로덕션 모니터링에 이르기까지—에서 핵심적입니다. 겉보기에는 사소하거나 중요하지 않아 보이는 변경 사항이라도, 애플리케이션 성능에 어떤 영향을 미치는지 반드시 검토해야 합니다.
W&B Weave는 모든 애플리케이션 데이터 포인트를 추적하고 관련 입력, 출력, 코드, 메타데이터를 효과적으로 정리·시각화하여 모델 성능 평가를 간편하게 수행할 수 있도록 해줍니다.
평가 결과는 최적화 기법이 AI 애플리케이션의 성능과 품질을 개선하는지, 또는 저해하는지를 알려줍니다. AI 개발자는 애플리케이션의 어떤 영역을 개선해야 하는지에 따라 서로 다른 전략과 기법을 적용할 수 있습니다.
아래 차트는 LLM 최적화 전략을 보여 주지만, 동일한 원칙을 AI 애플리케이션 최적화에도 똑같이 적용할 수 있습니다.
소스
최적화 작업에 자주 포함되는 기법으로는 다음과 같은 것들이 있습니다:

LLM 선택

대형 언어 모델마다 성능이 다릅니다. 품질이 높은 LLM은 비용이 더 들 수 있지만, 정확도도 더 높습니다. 특정 LLM은 프로그래밍 코드 생성, 수학 문제 해결, 콘텐츠 요약에서 특히 뛰어나다고 알려져 있습니다. 하나의 LLM을 쓰느냐 다른 LLM을 쓰느냐에 따라 AI 애플리케이션의 결과는 크게 달라지는 경향이 있습니다.

프롬프트 엔지니어링

프롬프트 엔지니어링은 기반 LLM 출력의 관련성과 품질을 높여 AI 애플리케이션에 직접적인 영향을 줍니다. 적절한 프롬프트를 설계하고 알맞은 LLM API 설정을 선택하면 모델이 맥락과 의도를 올바로 이해하여 더 정확하고 일관된 결과를 도출할 수 있습니다.

RAG 최적화

검색 증강 생성(RAG) 최적화는 모델이 외부 데이터 저장소를 활용해 맥락적으로 풍부한 응답을 생성할 수 있게 해 주므로, AI 애플리케이션을 구축할 때 큰 가치를 제공합니다. 가장 관련성 높은 정보를 제공하는 과정을 최적화함으로써, RAG는 LLM이 고품질 콘텐츠에 접근하도록 보장하고, 그 결과 생성되는 텍스트의 일관성과 적합성에 직접적인 영향을 미칩니다.

미세 조정

AI 애플리케이션을 위해 LLM을 미세 조정하면 모델이 특정 도메인 지식, 사용자 선호도, 맥락적 뉘앙스에 적응하여 특정 사용 사례에 더 부합하고 관련성 높은 출력을 생성할 수 있습니다. 이 과정은 대상 사용자에게 공감되는 콘텐츠를 이해하고 생성하는 모델의 역량을 강화하여 전반적인 성능을 향상시킵니다.
AI 애플리케이션 최적화에 여기 소개한 모든 기법이 반드시 필요한 것은 아니지만, 최종 사용자에게 제공되는 출력에 영향을 줄 수 있는 방식으로 애플리케이션 코드가 업데이트될 때마다 평가는 반드시 수행해야 합니다.

평가 데이터세트

효과적인 LLM 평가는 고품질 데이터에서 시작합니다(‘쓰레기가 들어가면 쓰레기가 나온다’는 격언을 떠올리세요). 따라서 의미 있는 평가를 보장하려면, 품질에 강한 초점을 두고 평가 데이터세트를 설계하는 것이 필수적입니다.
Hamel Husain의 훌륭한 블로그 글 비즈니스 성과를 이끄는 LLM-as-a-Judge 구축 평가를 위해 데이터세트를 올바르게 구성하는 것이 최적의 결과를 내는 데 왜 중요한지에 대해 자세히 설명합니다. 그는 데이터세트를 구축할 때 다음과 같은 차원을 고려해야 한다고 언급합니다:
  • 기능AI 제품의 구체적인 기능. 예: 이메일 요약, 주문 추적, 콘텐츠 추천.
  • 시나리오AI가 직면할 수 있으며 처리해야 하는 상황이나 문제. 예: 모호한 요청, 최종 사용자에게서 제공된 불완전한 데이터, 시스템 오류.
  • 페르소나: 뚜렷한 특성과 요구를 가진 대표 사용자 프로필. 예: 신규 사용자, 숙련 사용자, 기술 기피자.
간단히 말해, 평가 데이터세트는 만능이 아니다. 대상 사용자와 맥락을 항상 고려해, 실제 환경에서 예상되는 입력을 반영하는 데이터세트를 만들어야 한다.
AI 애플리케이션의 개발 단계는 효과적인 데이터세트를 구축할 출발점을 결정합니다. 프로덕션 환경에 배포된 AI 애플리케이션의 경우, 애플리케이션에서 직접 기록된 프로덕션 데이터를 평가 데이터세트의 기반으로 사용할 수 있습니다. 이 매우 가치 있는 데이터에는 일반적으로 다음이 포함됩니다:
  • 실제 최종 사용자와의 상호작용
  • 실제 최종 사용자가 입력한 진짜 엣지 케이스
  • 실제 최종 사용자의 실제 언어와 행동
  • 실제 최종 사용자의 실제 사용 성능 지표
여기서의 공통된 주제는 현실 세계의 최종 사용자입니다. AI 애플리케이션을 평가하는 데 가장 좋은 데이터는 여러분의 제품을 사용하는 대상 사용자에게서 수집된 데이터입니다. 안타깝게도, 완전히 새로운 AI 애플리케이션이라면 이 데이터의 양이 제한적이거나 아예 없을 수 있습니다.
현실 세계의 데이터가 부족하거나 없을 때는 평가 데이터세트를 합성 생성하는 데 집중해야 합니다. Husain은 자신의 블로그에서 다음과 같이 설명합니다. “대개는 포괄적인 커버리지를 보장하기 위해 현실 세계의 데이터 활용과 합성 데이터 생성 두 가지를 함께 진행합니다. 합성 데이터는 실제 데이터만큼 좋지는 않지만, 훌륭한 출발점이 됩니다. 또한 우리는 사용자 입력을 생성하는 데에만 LLM을 사용하며, LLM의 응답이나 내부 시스템 동작을 생성하는 데에는 사용하지 않습니다.”
우리 AI 애플리케이션을 구동하는 바로 그 LLM이 현실적인 데이터를 생성하는 데에도 도움을 줄 수 있다. Husain 이 입력 데이터를 생성하기 위한 훌륭한 프롬프트 전략을 제시합니다. 데이터를 생성할 때는 다음 사항을 고려하는 것이 중요합니다:
페르소나를 활용해 생성 과정을 안내하세요여러분의 AI 애플리케이션을 사용할 페르소나의 행동과 말투를 모방해, 관련성 높은 입력 질의를 생성하세요.
다양한 시나리오를 만들어 보세요: 동일하거나 유사한 질의를 반복해서 생성하지 않도록 주의하세요. 최종 사용자가 제시할 수 있는 다양한 요청을 고려해 그에 맞는 입력 데이터를 생성하세요.
엣지 케이스를 시뮬레이션하세요엣지 케이스는 종종 예기치 않은 상황입니다. 하지만 가능하다면 과거 경험을 활용하거나 최종 사용자가 여러분의 AI 애플리케이션을 예상 밖의 방식으로 사용할 수 있는 방법을 상상해 보세요.
도메인 전문가와 함께 검증하세요전문가가 입력 데이터를 검증하도록 하는 것은 매우 중요합니다. 발견되지 않은 환각이나 부정확성은 AI 애플리케이션 평가를 위태롭게 할 뿐 아니라 최종 제품의 전반적인 성능까지 저해할 수 있습니다.

평가 스코어러

W&B Weave Scorers는 AI 출력물을 평가하고 핵심 지표를 제공합니다. 데이터셋을 준비했다면, 다음 단계는 여러분의 AI 애플리케이션에 적합한 Scorers를 선택하는 것입니다. Weave에는 일반적인 AI 사용 사례에 맞춘 사전 구축된 Scorers가 여러 개 포함되어 있습니다. 또한 맞춤형 Scorers를 직접 만들거나, 다른 프레임워크와 라이브러리에서 제공하는 Scorers를 활용할 수도 있습니다.
LLM을 평가할 때 자주 사용하는 스코어러는 크게 두 가지 범주로 나눌 수 있습니다. 인간 주석 스코어러와 프로그래매틱 스코어러입니다. 각 유형은 고유한 강점과 약점이 있어 평가 목적에 따라 적합한 활용 영역이 다릅니다.
인간 주석 스코어러는 특히 LLM이 생성한 출력물을 사람 개인 또는 팀이 수작업으로 평가해 점수나 레이블을 부여하는 방식을 말합니다. 이 과정에서는 보통 모델 성능의 여러 측면—정확도, 관련성, 일관성, 유창성, 그리고 특정 가이드라인이나 기준 준수 여부—을 종합적으로 평가합니다.
인간 주석 스코어러의 장점은 다음과 같습니다:

맥락적 이해

사람 평가자는 자동화된 시스템이 놓칠 수 있는 뉘앙스, 맥락, 미묘한 언어적 차이를 해석할 수 있습니다. 이러한 인간의 통찰은 특히 복잡하거나 모호한 상황에서 생성된 응답의 품질을 평가하는 데 필수적입니다.

주관성과 품질 평가

창의성, 일관성, 대화의 적절성과 같은 언어 출력의 일부 측면은 본질적으로 주관적일 수 있습니다. 사람 평가자는 이러한 정성적 측면에 대해 더 풍부한 피드백을 제공할 수 있으므로, 사용자 경험이 최우선인 애플리케이션에서는 이들의 평가가 특히 중요합니다.

반복적 개선

인간 주석은 모델 출력에 더욱 깊이 관여할 수 있게 해 주어, 잠재적 개선점에 대한 논의를 촉진하고 추가 학습이나 파인튜닝을 이끄는 데 도움이 됩니다. 이러한 반복적 과정은 주의가 필요한 구체적 영역을 식별함으로써 모델 성능 향상으로 이어질 수 있습니다.


사람 평가자와 달리, 프로그래매틱 스코어러는 미리 정의된 알고리즘과 지표를 사용해 AI가 생성한 출력의 성능을 평가하도록 설계된 자동화 평가 시스템입니다. 이러한 스코어링 시스템은 언어 모델 성능을 정량적으로 측정해, 서로 다른 모델이나 반복 버전을 체계적이고 빠르게 비교하는 데 자주 활용됩니다.
검색어 존재 여부나 문장부호 확인처럼 간단한 평가라면 if-then-else 문에 정규식을 사용하는 것만으로 충분합니다. 단순할수록 좋습니다. 다만 규모상의 이유로 실무적으로는 어렵지만 “사람 개입(human-in-the-loop)”을 포함하는 편이 이상적인 경우도 있습니다. 이러한 상황에서는 LLM-as-a-Judge 접근이 가장 효과적인 방법인 경우가 많습니다. 이는 일관성, 관련성, 창의성 등의 기준에 따라 출력 품질을 평가하도록 LLM에 프롬프트를 제공하는 방식입니다. 예를 들어, 이러한 유형의 스코어러는 출력에 LLM 환각이나 오해를 불러일으키는 정보가 포함되어 있는지 판단하는 데 자주 활용됩니다.
더 결정적인 조건 기반 코드 스코러와 비결정적인 LLM-as-a-Judge 스코러를 결합하면 평가를 포괄적으로 수행할 수 있습니다. 이는 엄격한 if-then-else 방식의 조건부 평가와 함께, AI가 생성한 출력에 대한 보다 미묘하고 정성적인 분석을 모두 가능하게 합니다. 이러한 이중 접근법은 평가의 신뢰성과 깊이를 강화하여, 궁극적으로 더 나은 모델 개선과 성능 향상에 기여합니다.
프로그램형 스코러의 장점은 다음과 같습니다:

일관성과 확장성

자동화 스코어링 시스템은 대규모 데이터셋 전반에 걸쳐 일관된 평가를 제공하여, 벤치마킹과 성능 비교에 매우 효율적입니다. 이러한 확장성은 사람 평가에 수반되는 시간과 자원 제약 없이 여러 모델이나 반복 버전을 신속하게 평가하는 데 필수적입니다.

속도와 비용

프로그램형 스코러는 방대한 데이터를 신속하게 처리해 평가에 소요되는 시간과 비용을 크게 줄일 수 있으므로, 대규모 테스트를 더 자주 수행하는 것이 가능해집니다.

정량 지표

자동화된 평가는 BLEU, ROUGE, 정확도와 같은 정량 지표를 산출하여 모델 성능을 직접적으로 비교할 수 있게 합니다. 이러한 지표는 기준 성능을 확립하고, 실험을 통한 체계적인 개선을 촉진하는 데 도움이 됩니다.

평가 비교



최적화는 프롬프트, RAG 콘텐츠, 특정 LLM 등 객체의 조합을 비교하여 어떤 조합이 최고의 성능을 내는 AI 애플리케이션을 만들어냈는지 판단한 결과입니다. 시각적 비교와 프로그램형 비교를 최대한 간단하게 만들기 위해, Weave는 (a) 모든 평가 실행에서 입력, 출력, 코드, 결과, 기타 관련 데이터 포인트를 빠짐없이 기록하고, (b) 두 개 이상의 평가 실행 간 차이를 직관적이고 일관된 인터페이스로 확인하고 탐색할 수 있도록 제공합니다.
Weave의 인터랙티브한 Compare Evaluations 대시보드는 모든 평가 결과를 시각화하고 요약할 뿐만 아니라, 여러 평가 간의 차이만을 하이라이트하도록 제공합니다. 또한 한 평가를 기준선으로 지정해, 여러 다른 평가와 해당 지표를 그 기준과 비교할 수 있습니다. 아울러 Weave 모델을 포함한 모든 중요한 객체에 대해 원클릭 드릴다운도 제공합니다. 트레이스.
개발자는 결과의 차이에 집중하는 동시에, 이러한 차이의 기반이 되는 각 객체의 세부 내용도 신속하게 파악할 수 있습니다. 평가 결과가 어떻게 다른지를 빠르게 이해하는 것도 중요하지만, 결과가 왜 다른지까지 신속하게 파악할 수 있게 하면 최적화, 의사결정, 가치 실현까지의 시간을 더욱 단축할 수 있습니다.

결론

평가는 통찰을 제공합니다. AI 애플리케이션을 최적화하려는 모든 시도는 결과 출력에 영향을 미칠 가능성이 큽니다. 여기에 LLM이 비결정적이라는 사실까지 더하면, 지속적이고 철저한 평가의 필요성은 자명합니다. LLM과 AI 기술의 눈부신 혁신 속도는 AI 개발자로 하여금 끊임없고 집요하게 애플리케이션을 평가하도록 만듭니다. 고객과 최종 사용자에게 최고의 애플리케이션을 제공하려면 이러한 평가가 필수입니다.
최종 사용자와 애플리케이션 사이의 모든 상호작용은 귀사의 기업과 브랜드에 그대로 반영됩니다. 고객이 귀사 담당자와의 대화를 마치고 혼란이나 의구심을 품은 채 돌아가는 상황을 떠올려 보세요. 더 나쁜 경우는, 잘못된 정보를 받았음에도 이를 모른 채 만족스럽게 돌아가는 것일 겁니다. 고객이 직원과 불쾌한 상호작용을 겪지 않도록 하는 것만큼이나, 귀사의 AI 애플리케이션과의 부정적 경험을 방지하는 일도 매우 중요합니다.
많은 사람들은 AI와 그가 생성하는 콘텐츠에 대해 불안감을 느낍니다. 신뢰는 성공적인 AI 경험의 핵심입니다. 이는 AI 애플리케이션을 만드는 사람과 사용하는 사람 모두에게 해당됩니다. Weights & Biases는 신뢰를 바탕으로 애플리케이션을 구축할 수 있도록 돕는 AI 개발자 플랫폼입니다. 견고한 평가 기능과 결과에 대한 명확한 가시성을 통해, 최종 사용자가 믿고 사용할 수 있는 애플리케이션을 구축하는 데 적합한 AI 개발자 플랫폼임을 보장합니다.
Weights & Biases의 백서 다운로드 AI 에이전트 애플리케이션 평가프로토타입에서 프로덕션까지의 전환을 가속화하는 검증된 전략을 확인해 보세요.
30분 맞춤형 데모 신청하기 W&B Weave가 신뢰를 바탕으로 AI 애플리케이션을 구축하는 데 어떻게 도움이 되는지 직접 확인해 보세요.
오늘 바로 W&B Weave로 AI 애플리케이션을 만들어 보려면, 다음 링크에서 무료 계정에 가입해 주세요: https://wandb.me/tryweave
무료 Weights & Biases에 가입할 수도 있습니다 LLM 앱: 평가 학습을 위한 코스:
  • LLM 애플리케이션 평가를 위한 핵심 원칙, 구현 방법, 그리고 적절한 활용 사례.
  • 작동하는 LLM 판사 만들기 방법
  • 최소한의 인간 개입으로 자동 평가를 정렬하는 방법
마지막으로, Weave 평가에 대한 더 자세한 정보는 다음을 참고하세요. 제품 문서를 확인하세요.



이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보고서 보기