Skip to main content

사람 중심 주석: 왜 중요하며, 올바르게 수집하는 방법

W&B Weave가 사용자와 전문가 주석을 수집해 AI 애플리케이션을 개선하는 방법을 알아보세요 이 글은 AI 번역본입니다. 오역이 있을 경우 댓글로 알려주세요
Created on September 15|Last edited on September 15
실제 사용자에게 당신의 AI 애플리케이션이나 에이전트가 정말로 제대로 작동하고 있는지 궁금하신가요? 아무리 많은 자동 테스트를 돌려도, 실제로 무슨 일이 벌어지고 있는지는 인간의 피드백만큼 분명하게 보여주는 것이 없습니다. 바로 여기에서 사용자 리뷰와 전문가 주석이 빛을 발합니다. 예술과 과학의 결합이자, 무엇보다 필수적인 요소입니다.

두 가지 유형의 인간 피드백

우리가 말하는 인간 피드백의 의미를 분명히 해두는 것이 중요합니다. 먼저 가장 익숙한 형태가 있습니다. 좋아요, 이모지, 댓글로 남기는 사용자 피드백이죠. 빠르게 수집되는 유형입니다—일반 사용자들의 즉각적인 판단 현실 세계에서 당신의 AI가 최상의 경험을 제공하고 있는지 직감적으로 확인하게 해 줍니다. 그리고 그 아래에는 더 깊은 층위가 있습니다. 전문가 주석예를 들어 도메인 전문가가 사실 정확성, 문체, 톤 같은 기준으로 당신의 AI 앱 응답을 평가하는 방식입니다.
출시하는 동안 사용자 피드백 우리는 지난해 Weave에서 출시했으며, 최근에는 인간 주석 또한 최종 사용자 반응과 심층적인 전문가 리뷰를 모두 수집할 수 있다는 뜻입니다.

인간 피드백의 이점

사용자 피드백과 전문가 주석은 모두 애플리케이션의 출력물을 평가하는 데 도움이 됩니다. 기이하거나 오해를 부를 수 있는 응답을 발견하면 인간 피드백을 사용해 빠르게 필터링하고 플래그를 지정할 수 있습니다. 이는 잠재적인 문제를 찾아내고 수정하는 데 도움이 됩니다.

그런 좋지 않은 응답들을 평가 및 파인튜닝 데이터셋에 다시 포함시켜, 평가의 견고성과 모델 성능을 모두 개선할 수 있습니다. 필요한 일은 주석 레이블을 사용해 트레이스를 간단히 필터링하는 것뿐입니다. 예를 들어 아래 스크린샷에서는 이메일로 레이블된 모든 트레이스를 필터링할 수 있습니다.

그런 다음 해당 필터와 일치하는 모든 트레이스를 선택하고 “Add selected rows to a dataset” 버튼을 클릭해 기존 데이터셋에 추가하거나 새 데이터셋으로 만들 수 있습니다. 이렇게 하면 테스트나 프로덕션에서 발견한 까다로운 예시들을 평가와 파인튜닝 데이터셋에 보강할 수 있습니다. 이 작업은 from_call API를 통해서도 수행할 수 있습니다. 자세한 내용은 다음을 참고하세요. Weave 기술 문서의 데이터셋.


문제점: 일관성 없는 라벨링

하지만 문제는 이겁니다. 주석자마다 해석이 달라질 수 있습니다. 지침 한 세트를 건네준다고 해서 완벽히 동일하게 맞춰줄 거라고 기대할 수는 없습니다. 결국 인간은 로봇이 아니니까요. 어떤 사람은 스타일에만 지나치게 집중해 사실성을 놓칠 수 있고, 반대로 사실성만 보느라 스타일을 무시할 수도 있습니다.
라벨도 제각각 사용할 수 있습니다. 예를 들어 어떤 주석자는 응답을 좋음과 나쁨으로만 분류하는 반면, 다른 주석자는 추가적인 수식어를 붙여 더 세분화해서 분류할 수 있습니다. 이런 불일치는 데이터 품질을 흐트러뜨려 평가와 파인튜닝에 악영향을 줍니다.

Weave의 휴먼 어노테이션 스코어러 소개

그래서 Weave의 새로운 휴먼 어노테이션 스코어러가 판도를 바꿉니다. Weave UI나 API를 통해 워크플로에 맞게 설정할 수 있습니다. 설정이 끝나면 전문가들이 일관되고 구조화된 인터페이스에서 바로 주석 작업을 시작할 수 있습니다.

채점 기준을 조금 손보고 싶다면—예를 들어 이진(0/1) 체계에서 라벨 목록으로 바꾸고 싶을 때—문제없습니다. API를 통해 스코러를 편집하면서 모두가 동일한 기준에 합의할 때까지 계속 다듬을 수 있습니다.

시작하기

Weave에서 휴먼 어노테이션을 시작하는 방법을 매우 간단하게 만들었습니다. UI에서 다음 네 가지 간단한 단계로 휴먼 어노테이션 스코러를 생성하세요:
  • 사이드바에서 다음으로 이동하세요 Scorers.
  • 오른쪽 상단에서 +를 클릭하세요 Create scorer.
  • 설정 페이지에서 다음을 구성하세요:
    • Scorer type 으로 Human annotation
    • Name
    • Description
    • Type (수집할 피드백 유형을 결정합니다. 예: boolean 또는 integer)
  • 클릭하세요 Create scorer.
이제 채점기를 사용해 주석을 달 수 있습니다. 자세한 내용은 다음을 참고하세요 휴먼 주석 문서.

마무리하면서

휴먼 주석 스코어러를 사용하면 라벨링 프로세스를 일관되고 효율적이며 고품질로 맞춤화할 수 있습니다. 이는 AI 애플리케이션 디버깅을 위한 더 나은 워크플로, 더 엄격한 평가, 그리고 LLM 미세 조정을 위한 더 나은 데이터셋으로 이어집니다. AI 성능에 관해서는 탄탄한 인간의 통찰을 능가하는 것은 없기 때문입니다.

이 글은 AI로 번역된 기사입니다. 오역이 있을 수 있으니 댓글로 알려 주세요. 원문 보고서는 다음 링크에서 확인할 수 있습니다: 원문 보고서 보기