인간 피드백 기반 강화학습(RLHF)을 활용한 LLM 학습 입문
이 글에서는 대규모 언어 모델에서 편향을 줄이고 성능을 높이기 위한 새로운 접근법인 인간 피드백을 활용한 강화 학습(RLHF)을 살펴봅니다. 이 글은 AI 번역본입니다. 오역 가능성이 있다면 댓글로 알려 주세요.
Created on September 12|Last edited on September 12
Comment
AI 모델의 규모가 커질수록 편향, 공정성, 안전성 문제가 드러납니다. Reinforcement Learning from Human Feedback(RLHF)는 대규모 언어 모델(LLM)에서 편향을 줄이기 위한 새로운 접근법입니다.
이 글에서는 RLHF를 활용해 LLM의 편향을 줄이고 성능, 공정성, 대표성을 높이는 방법을 살펴봅니다.
이번 글에서 다룰 내용은 다음과 같습니다:
목차
시작해 봅시다.
문제점
AI 모델이 더 커지고 더 유용해질수록, 이를 안전하고 편향 없이 유지하는 방법을 찾는 것이 중요합니다.
여기에서 유익한 예는 GPT-3GPT-3는 진정한 대규모 언어 모델로, 1,750억 개의 파라미터를 보유하고 있으며(GPT-2의 100배), 많은 일반적인 과제에서 선행 모델들을 압도했습니다. NLP 재학습(파인튜닝) 없이도 해당 과제를 위한 벤치마크에서 좋은 성능을 보였습니다.
중요하게도, 그들의 논문, GPT-3의 저자들은 자신들의 모델이 우수하다는 점을 보여줌과 동시에 다음과 같은 논의도 제시했습니다 보다 광범위한 사회적 영향, 다음 내용을 포함하여 공정성, 편향, 그리고 표현. 몇 가지 예시:
- GPT-3에는 인종적 편향이 있습니다 - 분석된 다양한 GPT-3 변형 전반에서 “Asian”은 일관되게 높은 감성 점수를 보였고 “Black”은 일관되게 낮은 감성 점수를 보였습니다.
- GPT-3에는 성별 편향이 있습니다 - 직업명 뒤에는 일반적으로 여성 지시어보다 남성 지시어가 따라올 확률이 더 높습니다.
- GPT-3에는 종교적 편향이 있습니다 - violent, terrorism, terrorist와 같은 단어가 다른 종교보다 이슬람과 함께 더 높은 비율로 공기되었습니다.
이러한 모델이 학습한 데이터에서 편향을 그대로 물려받는 것은 놀라운 일이 아닙니다. LLM은 방대한 학습 데이터가 필요하고, 앞서 언급한 유형의 편향은 곳곳에 만연해 있습니다. 이는 고전적인 가비지 인, 가비지 아웃(GIGO) 문제입니다.
편향 문제를 어떻게 해결할 수 있을까?
이 문제를 해결하는 한 가지 방법은 사용하는 것입니다 사람 피드백, 특히 파인튜닝 단계에서. 그 한 가지 예는 InstructGPT, 그리고 이 방법을 가리키는 일반적인 용어는 사람 피드백을 활용한 강화학습 (또는 RLHF)."
그렇다면 사람 피드백은 어떻게 정의되고 수집될까요? 또한 대규모 언어 모델에는 어떤 방식으로 반영될까요?
우선 RLHF는 3단계 학습 과정이라는 점을 이해하는 것이 중요합니다.
- SFT는 다시 한 번 미세 조정되지만, 이번에는 강화 학습(RL)을 사용합니다. 전통적인 RL에서는 보상 함수를 수작업으로 설계하지만, 여기서는 이전 단계에서 학습된 RM을 보상 함수로 사용합니다.
여기서의 핵심 목표는 기존의 대규모 언어 모델(우리 사례에서는 GPT-3)을 인간의 원칙이나 선호에 맞추는 것입니다. 이렇게 하면 LLM이 덜 유해하고, 더 진실하며, 편향이 줄어듭니다.

참고: OpenAI 고객이 API에 제출한 프롬프트에 대해서는, 인간 레이블러가 원하는 모델 동작의 시연 예시를 제공했습니다(이는 SFT 학습에 사용되었습니다). 그들은 또한 여러 GPT-3 변형 모델이 생성한 출력들을 순위화했으며, 이 순위 정보를 선호 데이터셋으로 사용해 RM을 학습했습니다.
예를 들어, 레이블러에게 출력들을 가장 도움이 되는 것부터 덜 도움이 되는 것까지 순위를 매기라고 한다고 해봅시다. 그렇게 학습된 보상 모델에는 본질적으로 “도움됨” 속성이 반영됩니다. 이번에는 성별, 인종, 종교적 편향이 적은 순으로 순위를 매기라고 한다면, 그 결과로 얻은 RM은 편향이 더 적어야 합니다. 이렇게 보상 모델에서 나온 속성들을 바탕으로 GPT-3를 SFT로 미세 조정하고, 이어서 RL을 적용하면 모델이 더 안전해지고, 더 유용하며, 인간의 기대에 더 잘 맞춰집니다.
저는 RLHF의 핵심 논문 두 편을 요약한 문헌 리뷰를 작성했고, 또한 도움이 되었습니다 CarperAI 요약 작업에 RLHF를 구현하는 방법을 정리했습니다. 더 알아보려면 아래 보고서를 확인하세요.
Understanding Reinforcement Learning from Human Feedback (RLHF): Part 1
This article on Understanding Reinforcement Learning from Human Feedback (RLHF) is part one of an ongoing review of important foundational papers by OpenAI in the alignment space.
Implementing RLHF: Learning to Summarize with trlX
Implementation of Reinforcement Learning with Human Feedback for text summarization task using CarperAI's trlX framework.
미래 연구 미리 보기
LLM을 학습시키는 데는 비용이 많이 들고, 주석이 달린 데이터셋을 수집하는 것도 마찬가지로 비용이 큽니다. 그림 1에서 두 개의 하위 단계는 인간 레이블러를 필요로 합니다. 레이블러를 고용하는 데 비용이 많이 들고, 데이터셋에 주석을 다는 작업도 시간이 많이 소요됩니다.
이 시점에서 RLHF의 확장 가능성은 선호 데이터셋을 만드는 방식에 달려 있습니다. 앞으로의 연구는 자연스럽게 생성된 인간의 선호—예를 들어 다른 제품보다 우리가 클릭한 상품, 영화 평점 등—를 활용할 수 있습니다.
또한 인간 주석에 의존하지 않고, 다른 LLM(즉, AI 자체)을 활용해 피드백을 제공할 수도 있습니다. 뭐라고요? 맞습니다, 그렇습니다. 앤트로픽 모델의 유해성을 줄이기 위해 AI 피드백을 사용하는 RLHF 버전에 대해 작업했습니다. 이름은 RL입니다.인공지능F. 이에 대해서는 별도의 문헌 검토를 제공할 예정이지만, 우선 이 기법에 대한 그들의 요약을 확인해 보세요:
RLHF는 실제로 얼마나 도움이 될까?
그렇다면 RLHF는 GPT-3와 다른 대규모 언어 모델의 문제를 완화하고 있을까요? InstructGPT의 저자들은 다양한 지표를 사용해 정렬 수준을 분석했습니다.
독성 및 환각 점수가 낮을수록 더 나은 모델을 의미합니다. 한편 진실성 점수가 높을수록 GPT-3가 인간이 진실이라고 여기는 것과 더 잘 정렬되어 있음을 보여줍니다.

완벽할까요? 당연히 아닙니다! 첫째, 모델은 지침을 제공받은 방식, 그것을 받은 맥락(유급 업무로서), 그리고 지침을 제공한 사람이 누구인지에 의해 영향을 받는 일부 라벨러의 선호에 맞춰 정렬됩니다.
둘째, InstructGPT는 적절히 프롬프트하지 않으면 여전히 독성과 편향이 있는 출력, 지어낸 사실(환각), 그리고 성적·폭력적 콘텐츠를 생성합니다. 하지만 당신은 하다 여기에서 기준 GPT 모델에 비해 뚜렷한 향상을 확인할 수 있습니다.
결론
여기에서는 훌륭한 진전이 있었습니다. 얼마 전까지만 해도 AI 커뮤니티는 LLM과 전반적 AI의 광범위한 함의에 대해 우려했습니다. 어떤 도구든 마찬가지로, 최종 사용자는 그것을 선하게도 악하게도 사용할 수 있습니다.
요약하면, 현재 LLM 맞춤화의 흐름은 매우 고무적입니다. John Nay의 이 트윗이 잘 정리한 요약이라고 생각합니다:
질문이 있으시면 아래에 댓글을 남겨 주세요. 읽어 주셔서 감사합니다!
Add a comment