Skip to main content

W&B Weave로 EU AI 법을 준수하는 방법

EU AI 법은 AI 애플리케이션의 동작을 추적하고 이해할 수 있어야 한다고 요구합니다. Weave가 이를 어떻게 도울 수 있는지 소개합니다. 이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 15|Last edited on September 15
EU AI 법 는 특히 고위험으로 분류되는 인공지능 시스템의 설계, 개발, 배포 방식에 점점 더 큰 영향을 미치기 시작하고 있습니다.
이 글에서는 다음 내용을 살펴보겠습니다 W&B Weave 고위험 AI 시스템의 제공자로서 EU AI 법 준수 의무의 일부를 이행해야 하는 조직은 AI 애플리케이션을 구축하고 관리하기 위한 툴킷인 “Weave”를 통해 이를 지원받을 수 있습니다.
이 연재의 이전 글과 마찬가지로, 우리는 전적으로 가상의 기업인 VCorp가 LLM을 사용해 공석에 지원한 이력서를 점수화하는 애플리케이션(이하 “App”)을 개발하는 사례에 초점을 맞추겠습니다. 이 App은 개인의 고용 기회에 영향을 미칠 수 있으므로, EU AI 법의 Article 6, Annex III에서 규정한 고위험 범주에 해당한다고 가정하겠습니다.

Article 9

EU AI 법의 Article 9에 따라, VCorp는 App의 전 생애주기에 걸쳐 위험을 식별·평가·완화하는 위험 관리 시스템을 구축해야 합니다.
LLM은 동일한 입력에도 서로 다른 응답을 생성할 수 있으므로, App이 현실 세계에서 마주칠 모든 시나리오를 시험하는 것은 현실적이지 않습니다. 이러한 불확실성을 관리하기 위해 VCorp는 Weave를 사용해 대규모 데이터셋에서 평가를 수행하고, App의 정확성과 신뢰성에 대한 확신을 확보합니다. 맞춤형 점수화 도구(Scorers)는 App의 입력과 출력을 평가하여 안전성, 편향, 관련성, 환각 발생률, 그리고 VCorp가 정의한 기타 지표를 측정하는 데 사용됩니다. 문제가 발생하면, Weave는 사용자 입력부터 LLM의 응답, 그리고 관련 코드를 포함한 App의 모든 처리 단계를 손쉽게 추적할 수 있게 해 주어, 팀이 신속하게 원인을 찾아 수정할 수 있도록 지원합니다.
예를 들어, App의 업데이트로 인해 경력 공백이 있는 이력서에 더 낮은 매칭 점수가 부여되는 편향이 도입되었다면, Weave는 시간에 따른 평가 지표를 비교하여 이러한 변화를 팀이 감지할 수 있게 해줍니다. 공정성과 편향 지표를 추적하는 Scorers를 통해 모델의 동작이 달라졌음을 파악하고, 보다 균형 잡힌 데이터셋으로 재학습하거나 점수화 로직을 조정하는 등 시정 조치를 취할 수 있습니다. 이러한 모니터링, 추적, 대응 능력은 선제적이고 지속적인 위험 관리 시스템을 요구하는 Article 9의 준수를 VCorp가 이행하도록 지원합니다.

Article 10

EU AI 법의 Article 10은 제공자가 AI 시스템을 개발할 때 고품질 데이터를 사용하도록 요구합니다. 평가 데이터셋은 획일적으로 적용될 수 없으며, 대상 사용자와 맥락을 고려하고 현실 세계의 입력을 반영해야 합니다.
Weave는 App의 실제 사용에서 발생한 데이터(예: 로그, 실패 모드)를 반영하여 보다 현실적인 평가를 구성함으로써 VCorp가 이 요건을 충족하도록 돕습니다. 또한 VCorp가 사용자로부터 엄지척/아래와 같은 간단한 평가나 서면 코멘트 형태의 현실 세계 피드백을 직접 수집할 수 있게 합니다. 이 피드백은 채용 적합성을 기준으로 이력서를 평가하는 리크루터와 같은 전문가 검토자의 인사이트와 결합되어 대표성과 신뢰성을 갖춘 평가 데이터셋을 구축하는 데 활용될 수 있습니다. 이러한 기능들은 고품질의 현실 세계 데이터를 기반으로 App을 개발하도록 함으로써 Article 10 준수를 뒷받침합니다.

Article 12

Article 12는 App이 이벤트(즉, 로그)를 자동으로 기록할 수 있어야 함을 요구합니다. Weave Traces는 입력, 출력, 코드 버전, 메타데이터를 포함해 App 내부에서 발생하는 모든 일을 매우 세분화된 수준으로 자동 캡처함으로써, VCorp가 이 요건을 충족하도록 돕습니다. 이러한 포괄적인 로깅은 투명성과 책임성을 강화하고, 문제 해결 속도를 높여 줍니다.

Article 13

EU AI 법의 Article 13은 제공자가 자사 시스템이 투명하고 이해 가능하도록 보장해, 사용자가 이를 적절하고 책임감 있게 사용할 수 있도록 요구합니다.
Weave는 App의 성능을 측정하고 추적하며 설명할 수 있는 도구를 제공함으로써 VCorp가 이 요건을 충족하도록 돕습니다. VCorp는 Weave에서 평가를 실행해 명확한 성능 기준선을 수립할 수 있습니다(예: 정확도, 관련성, 편향 등 지표에 대한 벤치마크 설정). 이를 통해 팀은 “정상” 동작이 무엇인지 파악하고, 시간 경과에 따른 변화를 모니터링할 수 있습니다.
모든 평가 데이터는 Weave에서 중앙집중적으로 추적되고 체계적으로 관리되어, 결과 재현과 성능 추세 파악이 쉬워집니다. App이 발전함에 따라 Weave는 코드, 데이터셋, Scorers를 자동으로 버전 관리하여, VCorp가 무엇이 변경되었는지와 그 변경이 성능에 어떤 영향을 미쳤는지 확인할 수 있도록 합니다.
예를 들어, 리크루터들이 특정 직무의 이력서가 기대보다 지속적으로 낮은 점수를 받고 있음을 발견하면, VCorp는 Weave를 사용해 이를 조사할 수 있습니다. 버전이 관리된 평가 데이터와 성능 지표를 검토함으로써, 최근의 모델 업데이트나 데이터셋 변경이 원인인지 식별할 수 있습니다. Weave는 무엇이 변경되었는지, 왜 그런 변경이 발생했는지, 그리고 그 변경이 결과에 어떤 영향을 미쳤는지를 VCorp가 명확하게 설명할 수 있도록 합니다. 이러한 수준의 가시성은 투명성과 책임 있는 사용을 뒷받침하며, Article 13의 요구 사항에 부합합니다.

Article 14

EU AI 법의 Article 14는 고위험 AI 시스템이 인간의 감독을 전제로 설계되도록 요구하며, 이는 팀이 시스템의 동작을 모니터링하고 필요 시 개입할 수 있어야 함을 의미합니다. Weave는 앞서 언급한 Scorers를 기반으로 동작하는 Guardrails와 Monitors를 통해 이를 지원합니다.
Guardrails로 사용할 때 Scorers는 실시간으로 동작하여, 사용자가 접하기 전에 안전하지 않은 콘텐츠를 차단하거나 수정함으로써 피해나 오용을 예방하는 데 도움을 줍니다. Monitors로서 Scorers는 이러한 지표를 백그라운드에서 추적하여, 팀에 추세와 비정상 동작에 대한 지속적인 가시성을 제공합니다. 이러한 도구를 통해 Weave는 이상 현상이나 오작동을 VCorp에 경고하고, 사람이 신속하게 개입할 수 있도록 보장합니다.

Article 15

EU AI 법의 Article 15는 고위험 AI 시스템의 제공자가 개발 단계와 운영 환경 모두에서 정확성, 강건성, 사이버보안에 관한 구체적인 기준을 충족하도록 요구합니다.
W&B Weave는 앱을 전 단계에 걸쳐 평가하고 모니터링하며 보호할 수 있는 도구를 제공함으로써 VCorp가 이러한 요구 사항을 충족하도록 돕습니다. 출시 전에 VCorp는 Weave를 사용해 정확도, 관련성, 오류율과 같은 핵심 지표의 기준선을 수립하는 평가를 실행할 수 있습니다. 이러한 벤치마크는 앱이 기대대로 작동하는지 확인하고, 시간 경과에 따른 성능 추적을 위한 기준점을 제공합니다.
운영 환경에서는 Weave가 Monitors와 Guardrails를 통해 일관성과 보안을 유지하도록 돕습니다. 예를 들어, Guardrails는 지원자가 언급하지 않은 경력을 있다고 App이 잘못 주장하는 등의 환각을 포착할 수 있습니다. 이러한 시스템을 통해 VCorp는 위협을 탐지하고 오류를 예방하며 성능을 유지할 수 있어, App이 정확성, 강건성, 보안을 지속적으로 충족하도록 지원합니다.


EU AI 법이 고위험 AI 시스템에 대한 새로운 기준을 제시함에 따라, W&B Weave와 같은 도구는 기업이 AI 워크플로에 투명성, 추적 가능성, 감독 기능을 내재화하도록 돕습니다. Weave를 통합함으로써 VCorp는 컴플라이언스 의무를 보다 충실히 이행하는 동시에, AI 애플리케이션의 품질과 신뢰성을 개선할 수 있습니다.
이 글의 어떠한 내용도 Weights & Biases 또는 개별 작성자의 법률 자문으로 해석되어서는 안 되며, 어떠한 주제에 대해서도 법률 자문을 대체하려는 의도가 아닙니다.

이 글은 AI 번역본입니다. 오역이 의심되는 부분은 댓글로 알려주세요. 원문 보고서는 다음 링크에서 확인하실 수 있습니다: 원문 보고서 보기