강화학습 알고리즘의 분류
강화학습이 시행착오를 통해 AI가 학습하도록 돕는 방식과 핵심 알고리즘, RLHF와 같은 방법, 그리고 실제 적용 사례를 살펴보세요.
이 글은 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 10|Last edited on September 10
Comment
강화학습 (RL) 은 인공지능의 한 패러다임으로, 인간과 동물이 시행착오와 점진적 개선을 통해 자연스럽게 학습하는 방식에서 영감을 받았습니다. 라벨이 붙은 예시나 정적인 데이터셋에 의존하는 대신, 강화학습 에이전트는 사람이 자전거 타기나 게임하기를 배우듯 환경과 상호작용합니다. 즉, 행동을 수행하고 그 결과를 경험하며, 피드백을 바탕으로 무엇이 성공과 실패를 이끄는지에 대한 이해를 점차 정교하게 다듬습니다. 이러한 탐색, 적응, 보상 중심 학습의 과정을 통해 RL 시스템은 명시적 지시가 없거나 불완전한 낯선 혹은 복잡한 상황에서도 효과적인 전략을 스스로 발견할 수 있습니다.
강화학습을 다른 기계학습 방식과 구분 짓는 핵심은 상호작용적 특성입니다. RL 에이전트는 지속적으로 결정을 내리고, 그 선택이 향후 결과에 어떤 영향을 미치는지 관찰하며, 장기적인 목표 달성을 가능하게 하는 지식을 점진적으로 축적해야 합니다. 이는 인간이 시간에 따라 적응하는 방식과 유사합니다. 강화학습이 로보틱스 분야의 돌파구를 점점 더 이끌어 가면서, 게이밍、 자율주행 차량그리고 기타 다양한 분야까지, 강화학습 알고리즘의 지형을 이해하는 것은 이 분야의 잠재력을 파악하는 데 필수적입니다.
이 글에서는 강화학습의 핵심 구성 요소를 살펴보고, 이 접근법이 전통적인 기계학습 방식과 어떻게 다른지 강조합니다. 지도학습 그리고 비지도학습 패러다임들. 이어서 모델 기반과 모델 프리라는 두 가지 주요 강화학습 알고리즘 계열을 살펴보며, 각 접근이 어떻게 학습하는지, 각각의 장점과 한계, 그리고 실제 응용에서 어디에서 강점을 보이는지를 탐구하겠습니다.
다음으로, 다음과 같은 가장 영향력 있는 알고리즘들을 소개하겠습니다. Q-러닝、 딥 Q-네트워크(DQN), 그리고 Proximal Policy Optimization(PPO)를 다루며, 각 알고리즘의 작동 원리와 AI 역량 향상에서의 역할을 설명합니다. 마지막으로 분포적 강화학습과 같은 최신 발전 동향을 간단히 살펴보고, 이러한 다양한 접근법이 어떻게 상호 보완적으로 진보를 이끌어 우리처럼 복잡하고 동적인 세계에서 AI가 점점 더 정교하게 학습하고, 적응하며, 행동하도록 만드는지로 글을 맺겠습니다.

목차
강화학습이란 무엇인가요?에이전트, 환경, 보상상호작용을 통한 학습강화학습이 다른 형태의 머신러닝과 다른 점강화학습 알고리즘의 주요 유형모델 기반 대 모델 프리 강화학습 방법가치 기반, 정책 기반, 액터-크리틱 강화학습 방법온정책 대 오프정책 강화학습 방법인기 있는 강화학습 알고리즘딥 Q-러닝SARSA리인포스근접 정책 최적화 (PPO)어드밴티지 액터-크리틱 (A2C, A3C)딥 결정적 정책 경사(DDPG)와 소프트 액터-크리틱(SAC)다이나-Q몬테카를로 트리 탐색(MCTS), AlphaGo, MuZero고급 강화학습 기법다중 에이전트 강화학습인간 피드백을 통한 강화학습GRPO분포적 강화학습사례 연구와 응용 분야PCB 레이아웃을 위한 강화학습추천 시스템을 위한 강화학습자율주행차를 위한 강화학습DeepSeek R1증류를 통한 ���율성 향상DeepSeek-R1의 결과결론
강화학습이란 무엇인가요?
강화학습은 에이전트가 환경과 상호작용하며 보상이나 페널티 형태의 피드백을 받아 의사결정을 학습하는, 기계학습의 독특한 접근 방식입니다. 정답 예시에 의존하는 지도학습과 달리, 강화학습의 에이전트는 시간이 지남에 따라 어떤 행동이 가장 유리한 결과를 가져오는지 스스로 탐색하고 발견해야 합니다.
이러한 상호작용적 학습 과정은 아이가 자전거를 배우는 방식과 매우 비슷합니다. 무엇을 어떻게 움직이라고 일일이 지시받는 것이 아니라, 직접 시도해 보며 흔들리고 넘어지는 경험을 하고, 그 결과로 얻은 성공과 실수를 바탕으로 다음 시도를 조정해 나갑니다.
에이전트, 환경, 보상
강화학습의 핵심 주체는 에이전트와 환경입니다. 에이전트는 학습자이자 의사결정자로, 로봇부터 트레이딩 시스템, 비디오 게임 속 가상 플레이어까지 무엇이든 될 수 있습니다. 환경은 에이전트가 작동하는 세계로, 다양한 상황(상태)을 제시하고 에이전트의 행동에 반응합니다.
매 단계마다 에이전트는 다음을 수행합니다:
- 현재 환경의 상태를 관찰한다
- 행동을 선택하고 수행한다
- 수치 보상의 형태로 피드백을 받는다
- 그리고 에이전트의 행동에 따른 결과로 환경은 새로운 상태로 전이된다

에이전트의 궁극적 목표는 시간이 지남에 따라 누적 보상을 극대화하는 정책, 즉 상태를 행동으로 매핑하는 규칙을 학습하는 것입니다.
상호작용을 통한 학습
강화학습의 가장 큰 특징은 학습이 지속적이고 반복적으로 이루어진다는 점입니다. 에이전트는 새로운 행동을 탐색하고, 그 경험에 따라 스스로의 행동을 조정하면서 단기 보상과 더 큰 장기 이익 사이의 균형을 맞춰야 합니다. 수많은 시행착오 에피소드를 거치며 에이전트는 환경에서 잘 작동할 수 있는 행동 레퍼토리를 구축하고, 이는 인간과 동물 지능의 핵심인 적응적·경험적 학습을 반영합니다.
강화학습이 다른 형태의 머신러닝과 다른 점
지도학습이 대규모 라벨링된 예시 데이터셋에 의존하고, 비지도학습이 라벨이 없는 데이터에서 패턴을 찾는 데 초점을 두는 것과 달리, 강화학습은 환경 자체로부터의 피드백에 의해 구동된다. 에이전트는 어떤 행동이 “정답”인지 지시받지 않으며, 대신 자신의 행동이 초래한 간접적 신호(보상 또는 페널티)를 바탕으로 가장 효과적인 전략을 스스로 추론해야 한다. 이러한 목표 지향적 특성 덕분에, 강화학습은 정답이 사전에 주어지지 않고 시간이 흐르며 서로 의존적인 의사결정의 연쇄를 통해 성패가 갈리는 문제에 특히 적합하다.
강화학습의 핵심 개념을 정리했으니, 이제 주요 알고리즘 계열을 살펴보겠습니다. 이러한 범주를 이해하는 것은 매우 중요합니다. 이는 에이전트가 학습하는 방식뿐 아니라 각 기법이 어떤 유형의 문제에 가장 적합한지도 좌우하기 때문입니다.
강화학습 알고리즘의 주요 유형
강화학습은 여러 핵심 기준에 따라 분류할 수 있는 다양한 알고리즘적 접근을 포괄한다. 주요 유형은 다음과 같다: 모델 기반 대 모델 프리, 가치 기반 대 정책 기반 대 액터-크리틱, 그리고 온폴리시 대 오프폴리시 방법.
이들 각각은 강화학습 알고리즘이 환경과 상호작용하는 방식, 의사결정 전략을 표현하는 방법, 그리고 경험으로부터 학습하는 과정을 서로 다른 측면에서 나타낸다.
모델 기반 대 모델 프리 강화학습 방법
가장 기본적인 구분은 모델 기반 강화학습과 모델 프리 강화학습의 차이입니다.
모델 기반 강화학습 방법환경의 동역학, 즉 에이전트의 행동에 따라 상태가 어떻게 변화하고 어떤 보상이 주어지는지를 명시적으로 모델링하려는 시도를 한다. 이렇게 학습된 모델을 바탕으로 가능한 미래 상황을 예측하여 행동을 계획한다. 가치 반복과 같은 고전적 계획 기법과 몬테카를로 트리 서치가 이 범주에 속하며, 이를 최근의 결합 접근법들도 포함한다 신경망 세계 모델을 활용해 미래 궤적을 시뮬레이션하기도 한다. 모델 기반 강화학습은 학습된 모델을 이용해 실제 환경과의 상호작용을 많이 거치지 않고도 계획을 세울 수 있으므로 대체로 표본 효율이 높다. 하지만 이러한 접근은 모델의 정확도에 크게 의존한다.
반면,모델 프리 강화학습 방법이런 모델을 구성하지 않는다. 대신 환경과의 상호작용에서 얻은 경험을 통해, 관측된 보상에 따라 가치 추정치나 정책을 갱신함으로써 직접 최적 행동을 학습한다. Q-learning, SARSA, Deep Q-Networks(DQN)은 모델 프리 알고리즘의 대표적 예시다. 모델 프리 방식은 효과적인 정책을 학습하는 데 더 많은 데이터가 필요할 수 있지만, 구현이 비교적 단순하고 정밀한 모델링이 어려운 복잡한 환경에서도 더 견고하게 동작하는 경우가 많다.
가치 기반, 정책 기반, 액터-크리틱 강화학습 방법
강화학습 알고리즘은 에이전트의 의사결정 과정을 어떻게 표현하고 갱신하는지에 따라서도 분류할 수 있다.
가치 기반 강화학습 방법가치 함수를 추정하는 데 초점을 맞추며, 이는 특정 상태에 있거나 그 상태에서 특정 행동을 취했을 때 기대되는 보상을 요약한 것이다. 에이전트는 이러한 값을 최대화하는 행동을 선택해 수행한다. Q-learning과 DQN은 이 접근의 대표적인 예로, 관련된 모든 상태와 행동에 대한 가치 함수를 계산하거나 근사하는 것이 실용적인 환경에서 강력하게 작동한다.
정책 기반 강화학습 방법대신, 명시적으로 가치 함수를 계산하지 않고 상태를 행동으로 직접 매��하는 매개변수화된 정책을 학습한다. 이러한 방법은 차원이 높거나 연속적인 행동 공간, 그리고 다중 에이전트 환경에서 특히 유용하다. REINFORCE와 Trust Region Policy Optimization(TRPO) 같은 정책 경사 알고리즘이 여기에 속한다. 이들은 기대 누적 보상을 최대화하도록 정책 파라미터를 직접 갱신한다.
가치 기반과 정책 기반 기법을 연결하는 방법은액터-크리틱방법으로, 정책(액터)과 가치 함수 추정(크리틱)을 모두 유지한다. 액터는 행동을 선택하는 역할을 맡고, 크리틱은 그 행동을 평가하여 액터가 개선될 수 있도록 피드백을 제공한다. 이러한 조합은 Advantage Actor-Critic(A2C), Proximal Policy Optimization, Deep Deterministic Policy Gradient(DDPG)와 같은 알고리즘에서 보듯 학습을 더 안정적이고 효율적으로 만드는 경향이 있다.
온정책 대 오프정책 강화학습 방법
강화학습 알고리즘을 구분하는 또 다른 기준은 온정책인지 오프정책인지 여부이다.
온정책 강화학습 알고리즘현재 실행 중인 정책에 대해 학습한다. 즉, 학습에 사용되는 데이터는 개선 중인 것과 동일한 정책으로 수집되므로, 학습 과정이 에이전트의 현재 행동과 밀접하게 연결된다. 이는 온정책 방법을 개념적으로 간단하게 만들고 종종 안정적인 학습으로 이어지지만, 때로는 데이터 효율성이 떨어질 수 있다. 온정책 알고리즘의 예로는 SARSA와 A2C, PPO 같은 많은 정책 경사 계열 방법이 있다.
오프정책 강화학습 알고리즘반면 오프정책 방법은 한 가지 정책(보통 최적 또는 목표 정책)의 가치를 학습하면서, 다른 정책(행동 정책)에 따라 행동한다. 이러한 구성은 과거 혹은 다른 정책으로 수집된 경험을 재사용할 수 있게 해 주며, 종종 리플레이 버퍼의 도움을 받아 표본 효율을 크게 높이고 다양한 데이터셋 활용을 가능하게 한다. 잘 알려진 오프정책 알고리즘으로는 Q-learning, DQN, DDPG, 그리고 Twin Delayed DDPG(TD3)가 있다. 오프정책 접근법은 오프라인 데이터에서 학습하거나, 다른 에이전트나 인간이 제공한 시연으로부터 학습할 때 특히 유용하다.
인기 있는 강화학습 알고리즘
강화학습은 상호작용을 통해 학습하고 최적의 행동을 탐색하는 방식이 서로 다른 다양한 알고리즘을 포괄한다. 어떤 방법은 경험 자체에 직접 의존하는 반면, 다른 방법은 보다 신중한 계획을 위해 환경을 모델링하려고 시도한다. 아래에서는 대표적인 강화학습 알고리즘과 알고리즘 계열을 개괄하며, 각 접근의 일반적인 방법과 모델 프리인지 모델 기반인지 여부를 함께 설명한다.
딥 Q-러닝
딥 Q-러닝은 신경망을 사용해 행동-가치 함수(Q-함수)를 근사함으로써 에이전트가 복잡하고 고차원인 환경에서도 동작할 수 있게 해 주는 Q-러닝 알고리즘의 확장이다. 딥 Q-러닝에서 에이전트는 환경과 단계적으로 상호작용한다. 각 상태에서 행동을 선택하고, 보상을 관찰한 뒤, 새로운 상태로 전이한다. Q-값 표를 유지하는 대신, 에이전트는 현재 상태를 입력으로 받아 가능한 각 행동에 대한 기대 누적 보상(Q-값)을 추정하기 위해 신경망(“Deep Q-Network”, DQN)을 사용한다.
훈련 과정에서 에이전트는 현재 상태, 선택한 행동, 받은 보상, 그리고 다음 상태로 이루어진 경험을 메모리 버퍼에 저장한다. 정해진 간격마다 에이전트는 이 경험들에서 무작위로 배치를 샘플링해 신경망을 업데이트한다. 핵심 업데이트 규칙은 네트워크의 현재 Q값 예측과 갱신된 추정치 간의 차이(“시간차 오차”)를 최소화하는 데 기반한다. 여기서 갱신된 추정치는 관찰된 보상과 다음 상태에서의 미래 보상에 대한 네트워크의 추정을 함께 반영한다.
이 과정은 상태 공간이 너무 커서 명시적으로 열거할 수 없는 상황에서도, 네트워크가 어떤 행동이 더 높은 장기 보상을 가져오는지 점진적으로 학습하도록 해준다. 딥 Q-러닝은 픽셀만으로 아타리 게임을 플레이하는 것부터 실제 응용에서의 의사결정 문제에 이르기까지 다양한 과제를 강화학습 에이전트가 다룰 수 있게 했다.
SARSA
SARSA는 다음의 약자를 의미한다상태-행동-보상-상태-행동이며, 강화학습의 핵심 알고리즘 중 하나다. 얼핏 보면 SARSA는 Q-러닝과 비슷해 보이는데, 둘 다 특정 상황에서 특정 행동을 취하는 가치(행동의 가치)를 학습시켜 경험을 통해 점차 더 나은 의사결정을 하도록 한다는 공통점이 있기 때문이다. 핵심 차이는 SARSA가 이른바 온-폴리시(on-policy) 방법이라는 점이다. 즉, 현재 정책을 따르며 에이전트가 실제로 취한 행동을 기준으로 가치를 업데이트한다. 여기에는 무작위성이나 탐색(겉보기에는 최선처럼 보이는 행동 대신 새로운 것을 시도하는 경우 등)도 포함된다.
그래서 항상 최선의 선택만 했을 때 무엇이 일어날지를 기준으로 학습하는 방식(Q-러닝처럼) 대신, SARSA는 에이전트가 환경과 상호작용하는 과정에서 실제로 발생하는 상태·행동·보상의 순서를, 탐색까지 포함해 그대로 바탕으로 학습한다. 이 때문에 SARSA는 탐색적이거나 위험한 행동의 결과를 더 잘 반영할 수 있다. 탐색 과정에서의 실수가 나쁜 결과로 이어질 수 있는 상황에서는, 아직 시도해 보지 않은 이상적인 행동이 아니라 실제로 수행한 행동에서 배운다는 점에서, 일반적으로 더 안전하고 견고한 경향이 있다.
리인포스
REINFORCE는 모델 프리 정책 기반 강화학습 알고리즘으로, 전체 에피소드를 샘플링하고 관측된 보상이 더 높은 방향으로 행동을 미세하게 조정하면서, 행동에 대한 확률 분포(정책)를 직접 학습한다. 장기 가치 함수를 추정하지 않고, 보상 신호를 사용해 선택한 행동의 발생 확률을 조정한다는 점이 특징이며, 특히 행동 공간이 연속적이거나 최적 전략이 본질적으로 확률적인 문제에서 효과적이다.
근접 정책 최적화 (PPO)
근접 정책 최적화(PPO)는 신뢰성과 안정성으로 널리 쓰이는 모델 프리 정책 경사 강화학습 알고리즘이다. PPO는 각 정책 업데이트의 폭을 제한해 에이전트가 이전 행동에서 너무 멀리 급변하지 않도록 막음으로써, 보다 안정적이고 안전한 성장을 유도한다. REINFORCE와 마찬가지로 정책을 직접 개선하는 것을 목표로 하지만, 더 통제되고 샘플 효율적인 방식으로 이를 수행하여, 시뮬레이션과 실제 연속 제어 과제 모두에서 표준처럼 활용된다.
어드밴티지 액터-크리틱 (A2C, A3C)
어드밴티지 액터-크리틱(A2C)과 그 비동기 변형인 A3C는 가치 기반과 정책 기반의 추론을 결합한, 모델 프리 액터-크리틱 강화학습 방법이다. 이 알고리즘들은 행동을 선택하는 액터와, 그 행동의 가치를 추정하는 크리틱이라는 두 구성요소로 이루어진다. 크리틱이 액터를 “조언”하도록 함으로써, 에이전트는 분산이 낮고 안정성이 높은 방식으로 정책을 업데이트할 수 있으며, 이는 로보틱스처럼 차원이 높거나 연속적인 환경에서 특히 큰 가치를 발휘한다.
딥 결정적 정책 경사(DDPG)와 소프트 액터-크리틱(SAC)
DDPG와 SAC는 연속적 행동 공간을 가진 환경에 특화된 모델 프리 액터-크리틱 강화학습 알고리즘이다. DDPG는 결정적 정책을 사용하고, SAC는 확률적 정책을 채택하며 탐색을 향상시키기 위해 엔트로피 최대화를 도입한다. 두 방법 모두 신경망을 활용해 정책과 가치 함수를 근사함으로써 로봇 조작이나 자율 주행 같은 복잡한 제어 문제를 해결할 수 있다.
다이나-Q
다이나-Q는 모델 기반 강화학습 알고리즘의 초기이자 영향력 있는 예시이다. 이 방법에서 에이전트는 실제 상호작용으로부터 학습할 뿐만 아니라, 환경과의 상호작용 과정에서 환경의 단순한 모델도 함께 구축한다. 그런 다음 이 내부 모델을 사용해 “가상의” 전이를 시뮬레이션하며 향후 단계를 계획하고 학습을 가속한다. 다이나-Q는 모델 기반 계획과 모델 프리 업데이트 간의 시너지를 효과적으로 보여 주며, 더 발전된 모델 기반 RL을 위한 토대를 마련한다.
몬테카를로 트리 탐색(MCTS), AlphaGo, MuZero
몬테카를로 트리 탐색(MCTS)은 바둑, 체스, 쇼기처럼 완전정보 게임에서 널리 쓰이는 모델 기반 강화학습 알고리즘이다. 이 기법은 가능한 수들의 탐색 트리를 체계적으로 구축한 뒤, 가치 네트워크와 정책 네트워크의 지도를 받아 시뮬레이션 롤아웃으로 가지를 탐색한다. MCTS는 DeepMind의 AlphaGo에서 핵심 역할을 했으며, 가치와 정책 추정을 위한 딥러닝을 모델 기반 계획과 결합해 바둑에서 역사적인 성과를 거두었다.
MuZero는 정책과 가치 함수뿐 아니라 환경 동역학의 간결하고 예측적인 표현까지 스스로 발견하도록, 내부 모델을 직접 경험에서 학습함으로써 이 접근을 확장한다. MuZero는 근본적으로 모델 기반이지만, 실제 규칙을 알 수 없는 환경에서도 작동할 수 있으며, 전략 보드게임을 비롯한 다양한 영역에서 세계적인 성능을 달성했다.
종합하면, 이들 알고리즘은 강화학습의 주요 접근법을 대표하며, 각기 다른 메커니즘·강점·트레이드오프를 지닌다. Q-learning과 DQN 같은 가치 기반 방법은 단순하고 견고한 모델 프리 방식으로, 에이전트가 직접 경험을 충분히 확보할 수 있을 때 뛰어난 성능을 보인다. 반면 REINFORCE, PPO, A2C/A3C와 같은 정책 기반 및 액터-크리틱 방법은 역시 모델 프리 업데이트에 의존하지만, 연속적이거나 복잡한 의사결정 공간으로 더 잘 일반화되는 경우가 많다. 이에 대비해 Dyna-Q, MCTS, MuZero 같은 모델 기반 알고리즘은 세계를 모델링하거나 미래 결과를 내부적으로 시뮬레이션함으로써 학습을 가속하고 계획을 가능하게 한다. 실제 환경의 강화학습은 점점 이러한 관점을 통합하여, 경험 중심 학습과 상상력을 활용한 계획을 함께 이용함으로써 더 효과적이고 데이터 효율적인 에이전트를 구축하고 있다.
고급 강화학습 기법
강화학습은 연구자들이 게임이나 단일 에이전트 환경을 넘어, 인간의 선호와 사회적 상호작용, 대규모 문제 해결의 복잡성까지 다룰 수 있는 에이전트를 개발하기 위해 노력함에 따라 계속해서 새로운 경계를 넓혀 가고 있다. 최근 몇 년 사이 특히 큰 영향을 미친 세 가지 최전선이 부상했다: 다중 에이전트 강화학습 (MARL), 역강화학습, 그리고 강화학습의 적용 대규모 언어 모델 을 통해 파인튜닝 선호 기반 또는 검증 가능한 신호를 통해서.
다중 에이전트 강화학습
다중 에이전트 강화학습은 각기 고유한 목표나 정책을 가진 여러 에이전트가 동시에 상호작용하는 환경으로 표준 RL 패러다임을 확장한 개념이다. 단일 에이전트 설정과 달리, 여기서는 각 에이전트가 서로의 행동에 대응해 적응함에 따라 환경이 동적으로 변하고 지속적으로 변화한다.
이는 고유한 난제를 가져온다. 고립된 에이전트에게 통하던 전략도, 다른 에이전트들과 경쟁·협력·협상을 하면서 그들의 행동까지 동시에 변한다면 쉽게 무너질 수 있다. 다중 에이전트 강화학습 연구는 높은 수준의 팀워크, 자발적으로 나타나는 역할 분담, 정교한 협상을 수행하는 시스템으로 이어졌다. 이러한 성과는 자율 드론 군집, 로봇 창고 협업부터 다인용 비디오 게임, 모의 경제까지 다양한 응용 분야에서 확인되고 있다.
무엇보다 중요한 것은, 이러한 에이전트들이 기본 환경으로부터뿐 아니라 서로로부터도 학습해야 한다는 점이다. 이들은 자신의 보상을 극대화하는 방법뿐 아니라 동료들의 정책을 예측하고, 영향을 미치거나, 그에 맞추는 방법까지도 발견해야 한다.
인간 피드백을 통한 강화학습
아마도 최근 강화학습의 가장 변혁적인 활용 사례는 대규모 언어 모델을 정렬하고 파인튜닝하는 데서 나타났다. 인간 피드백을 통한 강화학습 (RLHF) 이제 다음과 같은 모델을 보장하는 데 핵심적이며, GPT-4o 또는 Claude는 인간의 의도에 부합하도록, 유용하고 안전하게 행동한다.
수작업으로 만든 평가 지표나 지도학습에만 의존하는 대신, RLHF는 사람의 판단을 수집한다. 사람들이 여러 모델 응답을 평가하거나 순위를 매기고, 그 데이터를 바탕으로 인간의 선호를 예측하는 보상 모델을 학습한다. 이후 언어 모델은 강화학습으로 최적화되며, 대개 Proximal Policy Optimization 같은 알고리즘을 통해 예측된 “유용성”이나 수용 가능성을 최대화하도록 학습된다. 이 과정은 언어 모델의 성능과 정렬 측면에서 놀라운 향상을 이끌어냈지만, 동시에 기술적 과제도 수반한다. 예를 들어, PPO는 보통 미래 보상을 추정하기 위한 별도의 “비평가(critic)” 모델을 요구하는데, 이는 오늘날의 대규모 언어 모델 규모를 고려할 때 계산 비용이 매우 크다.
GRPO
DeepSeek이 제안한 Group Relative Policy Optimization(GRPO)는 선호 기반 강화학습을 통한 LLM 미세조정에서 효율적인 대안을 제공한다. GRPO는 거대한 가치 네트워크의 필요성을 없앤다. 대신 주어진 프롬프트마다 모델로부터 여러 개의 후보 응답을 샘플링하고, 각 응답의 품질을 평가한다. 이 평가는 인간 선호로 학습된 보상 모델이나 정답성에 대한 자동화 검증으로 수행될 수 있다.
각 응답의 절대적 가치를 추정하는 대신, GRPO는 각 샘플의 보상을 해당 그룹의 평균 보상과 직접 비교한다. 이후 모델은 동일한 프롬프트 내에서 동료보다 뛰어난 응답의 확률은 높이고, 뒤처지는 응답의 확률은 낮추도록 강화된다. 그룹 평균을 자연스러운 기준선으로 사용함으로써, GRPO는 선호 데이터의 비교적 특성과 잘 맞아떨어지며 메모리와 연산 요구량을 크게 줄인다.
학습을 더욱 안정화하기 위해 GRPO는 원래 모델의 분포에서 과도하게 벗어나는 것을 억제하는 정규화를 적용한다. 이는 전통적 강화학습 알고리즘에서의 KL 발산 패널티와 유사한 역할을 한다. 그 결과, 미묘한 인간 선호나 검증 가능한 신호에 모델을 정렬하기 위한 간결하면서도 강력한 접근법이 구현되며, 특히 산술적 추론이나 코드 생성처럼 상대적 출력 품질이 핵심인 도메인에서 효과적이다.
검증 가능한 보상(Reinforcement Learning with Verifiable Rewards, RLVR)으로 알려진 밀접하게 관련된 접근법은, 모델이 자동 검증기로 확인 가능한 정답성(예: 올바른 코드 생성이나 수학적 해답)을 요구받을 때처럼 정답을 자동으로 판별할 수 있는 환경에서 RL 기법을 적용한다. RLVR에서는 보상이 학습된 또는 주관적 선호 모델에서 오지 않고, 프로그램적 평가로부터 직접 주어지므로, 명확한 정답이 존재하는 과업에 대해 견고한 학습 신호를 제공한다.
분포적 강화학습
전통적인 강화학습은 각 상태와 행동에서 에이전트가 얻을 것으로 기대되는 총 보상(즉, “가치”)을 단일 숫자로 추정하는 방식으로 작동하며, 이는 가능한 모든 미래 결과에 대해 평균을 낸 값이다. 이러한 평균은 전반적으로 무엇이 일어날 가능성이 높은지를 알려 주지만, 불확실성이나 위험, 변동성이 얼마나 큰지에 대한 정보는 버리게 된다. 때로는 가능한 결과들이 크게 달라질 수 있다. 예를 들어 평균은 같더라도, 한 경로는 큰 이익을, 다른 경로는 큰 손실을 가져올 수 있다.
분포적 강화학습은 다른 접근을 취한다. 평균 수익만 추적하는 대신, 가능한 수익의 전체 분포를 학습하려고 한다. 각 상태와 행동에 대해 에이전트는 “평균적으로 무엇이 일어나는가?”에 그치지 않고 “어떤 다양한 결과들이 나올 수 있으며, 각각의 가능성은 얼마나 되는가?”를 예측한다. 다시 말해, 분포적 강화학습은 평균만이 아니라 수익이 가질 수 있는 범위 전체를 학습한다.
왜 이것이 유용할까? 많은 상황에서 가능한 미래들의 분포와 형태가 중요하기 때문이다. 어떤 행동이 위험한지, 드물지만 큰 보상(또는 페널티)이 발생할 수 있는지를 아는 것은 특히 불확실성, 잡음, 안전이 핵심인 환경에서 에이전트가 더 나은 결정을 내리는 데 도움이 된다. 또한 학습을 더 안정적이고 효율적으로 만들고, 발생 가능성은 낮지만 중요한 사건을 에이전트가 인식하도록 돕는다.
실무에서는 분포적 강화학습이 각 상태와 행동에 대한 가능한 미래 수익을 확률분포로 표현함으로써 작동한다. 단일 가치 추정치를 갱신하는 대신, 에이전트는 경험에 근거해 서로 다른 보상들이 얼마나 일어날 법한지에 대한 전체 예측을 갱신한다. 이를 위해 보통 수익 분포를 대표 점들의 집합(“원자”)이나 분위수로 모델링하고, 분포에 맞게 변형된 벨만 방정식의 한 형태를 사용해 이들을 업데이트한다.
예를 들어 C51 알고리즘(널리 사용되는 분포적 방법)은 수익 분포를 51개의 균등 간격 값(또는 “빈”)에 대한 합으로 표현한다. 에이전트가 전이를 관측하면, 단일 숫자를 위아래로 조정하는 대신 이 빈들에 대한 확률 질량을 이동·재분배하여 새로운 증거를 반영한다. 시간이 지남에 따라 에이전트는 어떤 결과가 흔하고 어떤 결과가 드물며, 각 상태에서의 모든 행동에 대해 어느 정도의 변동성을 기대해야 하는지 학습하게 된다.
사례 연구와 응용 분야
강화학습의 영향력은 이제 학술적 시연과 게임을 훨씬 넘어, 현실 산업을 변혁하는 돌파구들을 견인하고 있다. RL의 매력은 복잡하고 순차적인 행동을 자율적으로 학습하는 능력에 있으며, 경직된 규칙 기반 시스템으로는 감당하기 어려울 만큼 동적이거나 복잡했던 영역에서 자동화와 최적화를 가능하게 한다.
PCB 레이아웃을 위한 강화학습
주목할 만한 사례로 전자 하드웨어 분야가 있다. 이 분야에서는 전통적으로 수작업에 의존한 느린 인쇄회로기판(PCB) 레이아웃이 제품 개발 주기의 병목으로 작용해 왔다. 퀼터 은 새로운 접근을 개척하는 스타트업으로, 부품 배치와 트레이스 라우팅을 모두 처리하기 위해 완전 자율형 물리 기반 강화학습 엔진을 활용한다. 템플릿이나 사람 중심의 휴리스틱에 의존하는 도구와 달리, Quilter의 에이전트는 방대한 설계 공간을 탐색하며 제조 용이성, 전기적 무결성, 그리고 설계 제약을 최적화한다. 각 후보 보드 레이아웃은 실제에 가까운 시뮬레이션과 규칙 검사로 즉시 평가되며, RL 에이전트는 이 피드백을 바탕으로 점점 더 효과적인 수십 개의 레이아웃을 제안한다. 이를 통해 엔지니어링 팀은 하드웨어 개발에서 반복과 혁신을 가속하는 신속하고 독립적인 결과를 얻을 수 있다.
추천 시스템을 위한 강화학습
현실 세계 추천에서 강화학습의 매우 영향력 있는 사례로, YouTube가 대규모 프로덕션 환경에 배치한 상위 K개 선택(top‑K) 정책 경사 기반 시스템이 있다.Chen 외, 2019). 전 세계 수십억 사용자를 대상으로 방대한 카탈로그에서 추천해야 하는 과제에 직면한 YouTube는 이 문제를 순차적 의사결정 과정으로 재정의했다. 추천 시스템은 즉각적인 보상에만 집중하지 않고, 클릭과 시청 시간 같은 사용자 행동 로그로부터 직접 학습하여 장기적인 만족도와 참여도를 최적화한다.
이러한 환경에서의 근본적 과제 중 하나는, 새로운 알고리즘이 이전 버전의 추천기가 생성한 과거 피드백으로부터 학습해야 하므로 피할 수 없는 데이터 편향이 발생한다는 점이다. YouTube 시스템은 시간에 따라 정책이 변하는 점을 보정하고 실제 사용자 선호도와 더 잘 맞도록 학습 과정을 조정하는 “오프‑정책 보정” 기법을 개발해 이를 해결했다. 또한 이 모델은 단일 추천을 최적화하는 대신, 한 번의 상호작용에서 여러 항목을 추천하는 방식(사용자에게 동시에 여러 동영상이 제시되기 때문)을 중심에 두는 혁신을 도입했다.
강화학습, 오프‑정책 보정, 그리고 대규모 환경에 맞춘 특화 기법을 결합함으로써, 이 접근법은 변화하는 사용자 관심사에 보다 견고하게 적응하고 더 풍부하고 다양한 추천을 제공할 수 있게 했다. 실시간 실험에서는 전체 시청 시간과 사용자 참여도가 개선됨을 입증했다. 초기 연구 이후 구현 세부는 많이 진화했을 가능성이 크지만, 이러한 연구 흐름은 강화학습의 원리가 대형 온라인 플랫폼의 동적이고 프로덕션 수준의 환경에 맞게 어떻게 적응되고 확장되고 있는지를 잘 보여준다.
자율주행차를 위한 강화학습
아마도 2024년의 사례가 강화학습이 현실 세계에 미친 영향 가운데 가장 극적인 예일 것이다. 연구 애플 소속 엔지니어들이 참여한 “자기 대전에서 견고한 자율성이 나타난다(Robust Autonomy Emerges from Self-Play)” 연구는 인간 운전 데이터에 의존하지 않고, 자기 대전 강화학습만으로 자율주행 에이전트를 학습시키기 위해 구축된 대규모 시뮬레이터 GIGAFLOW를 소개한다.
GIGAFLOW에서는 AI 에이전트가 자동차, 트럭, 자전거 이용자, 보행자 등 다양한 가상의 교통 참여자를 제어하며, 각자는 고유한 목표와 행동을 지닌다. 에이전트는 다양한 동적 환경을 주행하면서 실제 교통의 예측 불가능성을 반영한 복잡한 상황—혼잡한 교차로, 합류 구간, 비보호 회전, 막판 장애물 등—을 반복적으로 마주한다. 학습은 방대한 규모로 진행되어 누적 시뮬레이션 주행 거리가 16억 킬로미터를 넘어섰고, 이를 통해 강화학습 에이전트는 지속적인 시도와 실패, 피드백을 거쳐 견고한 주행 정책을 형성한다.

GIGAFLOW의 핵심 혁신에는 구조화된 상태 표현, 순열 불변 네트워크 계층, 그리고 안정성을 위해 액터와 크리틱 파라미터를 분리한 강화학습 알고리즘(Proximal Policy Optimization, PPO)의 적용이 포함된다. 또한 이 시스템은 가장 어렵거나 영향력이 큰 경험에 학습을 집중하도록 하는 “어드밴티지 필터링”을 구현한다.
주목할 점은, 이렇게 얻어진 범용 정책이 실제 도로 주행 데이터를 단 1킬로미터도 사용하지 않았음에도 선도적 자율주행 벤치마크(CARLA, nuPlan, Waymo Open Motion Dataset)에서 전문 특화 모델들을 능가했다는 것이다. 학습된 정책은 인간과 유사하고 안전한 주행을 익혔을 뿐만 아니라 차량 유형 전반에 걸쳐 적응력을 보였고, 보상 함수를 조정하는 것만으로도 신중함부터 단호함에 이르는 다양한 “운전 성향”을 구현하며 주행할 수 있었다.
DeepSeek R1
강화학습의 강력함을 보여주는 훌륭한 사례는 DeepSeek R1 모델DeepSeek-R1은 수학, 논리, 프로그래밍을 포함한 고급 추론 과제에 특화되어 개발된 언어 모델이다. 이 모델의 학습 과정은 다음 토큰 예측을 위해 대규모 데이터셋으로 주로 지도학습을 수행한 뒤 RLHF로 인간 선호에 추가 정렬하는 GPT-4o 같은 범용 모델들과 뚜렷이 다르다.
DeepSeek-R1은 다단계 학습 과정을 통해 추론 능력을 강화하고, 유용성과 무해성에 대한 인간 선호와의 정렬을 맞추도록 훈련되었다. 학습은 “콜드 스타트” 방식의 지도 미세조정으로 시작되었으며, 여기서는 상세한 내용을 담은 고품질의 인간 작성 예시 수천 건을 활용했다. 사고 연쇄 (CoT) 가독성 높고 체계적인 추론에 탄탄한 기반을 제공하도록 기본 언어 모델을 학습하는 데 사용되었다.
이 초기 미세조정 이후, 모델은 추론 중심의 강화학습을 거쳤다. 이 단계에서 모델은 특히 수학, 코딩, 논리적 추론이 필요한 과제에서 정확하고 명료한 답변을 생성하도록 유도되었다. 강화학습 동안의 보상은 답변의 정확성과 언어적 일관성에 의해 결정되어, 모델이 정확하고 구조화된 추론을 산출하도록 이끌었다.
훈련 데이터의 품질을 한층 높이기 위해 연구진은 거절 샘플링을 활용했다. 이 과정에서 모델은 각 프롬프트에 대해 여러 개의 응답을 생성했고, 정확성, 명확성, 올바른 형식과 같은 특정 기준을 충족한 응답만 선별되며 나머지는 폐기되었다. 이렇게 추출된 고품질 응답들은 추가 미세조정을 위한 새로운 지도 학습 데이터세트를 구성했다.
추가로, 글쓰기와 사실 기반 질의응답처럼 더 폭넓은 도메인을 아우르는 데이터도 수집해 학습에 포함함으로써 모델의 역량을 확장하는 데 기여했다.
최종 강화학습 단계는 모델을 인간의 선호, 즉 유용성과 무해성에 맞추는 데 집중하면서 추론 능력을 한층 더 정제하는 데 초점을 맞추었다. 이 단계에서는 응답을 정확성, 형식, 언어적 일관성에 대한 보상 신호를 활용한 자동 평가와, 유용성 및 안전성에 대한 모델 기반 또는 규칙 기반 평가로 함께 판정했다. 이를 통해 모델이 강력한 추론 성능을 갖출 뿐만 아니라, 실제 상호작용에서 적절하고 안전하며 유익한 응답을 산출하도록 보장했다.
증류를 통한 효율성 향상
DeepSeek-R1 프로세스의 마지막 단계는 증류이다. 가장 성능이 뛰어난 RL로 미세조정된 DeepSeek-R1 모델의 출력과 능력을 감독 신호로 활용해, 1.5B, 7B, 14B, 32B, 70B 규모의 Llama 또는 Qwen 아키텍처 기반과 같은 훨씬 작은 밀집 모델을 학습한다. 이렇게 증류된 모델들은 자체적으로 강화학습을 수행하지 않으며, 단지 DeepSeek-R1이 생성한 고품질의 추론 경로를 이용해 미세조정된다.
결과는 눈에 띄게 뛰어납니다. 소형이면서 효율적인 오픈소스 모델이 처음으로 훨씬 더 큰 지시 미세조정 모델의 추론 성능에 도달하거나 이를 넘어섰고, 많은 경우 OpenAI의 o1-mini 시리즈 같은 모델과의 격차도 크게 좁혔습니다. 예를 들어, DeepSeek-R1로 증류한 Qwen-7B는 주요 수학·논리 벤치마크에서 32B QwQ-Preview 모델을 능가했으며, 32B와 70B 증류 버전은 각 크기대에서 오픈소스 추론 성능의 신기록을 세웠습니다.
DeepSeek-R1의 결과
DeepSeek-R1과 그 증류 버전들을 GPT-4o 같은 주류 비추론형 모델과 비교하면, 훈련 방법론의 차이가 분명해진다. GPT-4o와 같은 모델은 강력한 제너럴리스트로서 열린 대화에서 더 수다롭고 창의적이지만, 훈련 단계에서 수학·과학·대회 프로그래밍 전반에 걸쳐 형식적 정답성을 최적화하거나, 길고 논리적인 사고 과정을 명시적으로 생성하도록 유인되지 않는다. 그 결과, AIME나 MATH-500처럼 단계별 추론을 강하게 요구하는 벤치마크에서는 DeepSeek-R1이 GPT-4o를 큰 폭으로 앞선다. GPT-4o가 이들 과제에서 보통 정확도가 10%대에서 20%초반에 머무르는 반면, DeepSeek-R1은 AIME에서 79% 이상, MATH-500에서 97% 이상을 기록해, 추론 특화 계열인 OpenAI의 비공개 “o1” 라인에 필적하거나 이를 뛰어넘는 성능을 보인다.

소형 R1 증류 모델들은 이러한 추론 능력의 상당 부분을 물려받으며, 작은 모델을 직접 강화학습으로 훈련하려는 어떤 방법보다 훨씬 효율적으로 이를 달성한다. 실제로 실험에 따르면, 작은 모델에게 처음부터 강화학습으로 추론을 가르치려는 시도는 계산 비용이 많이 들고, 강력한 강화학습 교사 모델로부터의 단순한 증류에 비해 성능이 떨어지는 모델을 낳는다. 따라서 이 증류 과정은 일반적으로 배포되는 모든 모델 규모에서 일급의 추론 능력을 활용할 수 있게 해 주며, 그 결과 더 작은 오픈 LLM들이 이전 모델들이 결코 뛰어나지 못했던 영역에서도 두각을 나타낼 수 있게 한다.

결론
강화학습은 인공지능 분야에서 경험, 적응, 지속적인 피드백을 통해 기계가 복잡한 목표를 달성하도록 이끄는 변혁적 접근법으로 두드러진다. 살펴보았듯이 RL은 에이전트가 단순히 반응하는 데 그치지 않고, 시간에 따라 계획하고 개선할 수 있게 하여, 명시적 지시나 정적인 데이터만으로는 한계가 드러나는 엔지니어링 설계부터 추천, 자율주행에 이르기까지 다양한 과제를 해결하도록 한다.
기반적인 가치 기반·정책 기반 기법부터 인간 피드백이나 분포 학습을 활용하는 고급 접근법에 이르기까지 강화학습 알고리즘의 다양성은 가능한 영역을 계속 확장하고 있다. 각 새로운 돌파구는 불확실성을 다루고, 장기적 결과를 최적화하며, 실제 환경으로 일반화하는 RL의 역량을 한층 강화한다.
그럼에도 불구하고 강화학습은 여전히 발전 중이며, 효율성·안전성·현실 환경에서의 견고성에 관한 미해결 과제가 지속적인 연구를 이끌고 있다. 기술이 성숙해짐에 따라 강화학습은 차세대 지능형·적응형 시스템의 초석으로 자리매김하며, 역동적이고 예측 불가능한 환경에서 기계가 학습하고 행동하는 방식을 재정의하게 될 것이다.
Add a comment

