Skip to main content

추론 모델에 관한 새로운 연구가 흥미로운 발견을 밝혔다

두 편의 최신 연구가 LLM의 추론에서 통념적인 강화학습을 어떻게 뒤흔드는지 살펴보세요. 간단한 데이터 필터링만으로도 복잡한 방법에 견줄 수 있으며, RLVR은 이미 알려진 능력의 최적화에 그칠 수 있음을 보여줍니다. 이 글은 AI 번역본입니다. 오역 가능성이 있으면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
두 편의 최근 논문이 어떻게 하는지를 비판적으로 재평가한다 대규모 언어 모델 추론 능력을 개발한다. 그중 하나는 Salesforce AI의 연구로, 더 단순한 방법의 효과를 탐구한다 강화학습 기법다른 한편으로 칭화대학교의 연구는 검증 가능한 보상과 함께하는 강화학습(RLVR)이 실제로 추론 능력을 향상시키는지에 의문을 제기한다. 이들 연구는 LLM의 추론 개선에 대해 우리가 당연하게 여겨 온 많은 가정들이 재고될 필요가 있음을 시사한다.

단순한 방법이 복잡한 RL에 견주다 (Salesforce AI – Xiong 외)

다음 제목의 논문에서 LLM 추론에 대한 미니멀리스트 접근법연구진은 LLM의 수학 추론 능력을 향상시키기 위한 다양한 강화학습 기법을 평가한다. 최근의 사후 학습에서는 Proximal Policy Optimization(PPO)과 Generalized Reinforcement with Proximal Optimization(GRPO)처럼 복잡한 알고리즘을 자주 사용하는데, 이들은 가치 모델과 보상 정규화가 필요해 계산 비용이 많이 든다.
이 연구는 RAFT(Reward-ranked Fine-Tuning)를 소개한다. RAFT는 거절 샘플링에 기반해 보상이 양수로 주어진 응답만으로 학습하는 방법이다. 단순한 방식임에도 RAFT는 Math500, Minerva Math, Olympiad Bench와 같은 벤치마크에서 학습 초기와 중반 단계에 GRPO와 맞먹거나 이를 능가한다. 변형 기법인 Reinforce-Rej는 완전히 정답인 프롬프트와 완전히 오답인 프롬프트를 모두 제거하여 학습 신호의 품질을 정제함으로써 성능을 한층 더 끌어올린다.
개선된 버전인 RAFT++는 중요도 샘플링과 클리핑을 도입해 학습 초기 성능을 높인다. 그러나 정답에만 기반해 학습하기 때문에 엔트로피 붕괴가 발생하여, 결국 GRPO에 뒤처진다. 모델이 너무 빠르게 수렴하면서 대안적 추론 경로를 탐색하지 못하게 되는 것이다. 저자들은 GRPO의 강점이 복잡한 최적화에 있는 것이 아니라, 가끔 음의 샘플을 포함해 탐색의 폭을 유지하는 데 있다고 주장한다.
결론은 명확하다. 데이터를 잘 거르는 것이 어떤 강화학습 알고리즘을 쓰느냐보다 더 중요할 수 있다. 프롬프트를 깔끔하게 정제하기만 해도, 기본적인 학습 전략이 최신 기법에 견주거나 이를 능가할 수 있다.


RLVR은 추론 범위를 확장하지 않는다(칭화대학교 – Yue 외)

에서 강화학습은 실제로 기본 모델을 넘어 LLM의 추론 능력을 고취하는가?, 연구자들은 검증 가능한 보상을 사용하는 RL이 실제로 새로운 추론 능력을 구축하는지, 아니면 모델이 이미 알려진 정답을 더 잘 맞추도록 만드는 데 그치는지에 의문을 제기한다.
RLVR은 “검증 가능한 보상 기반 강화학습”을 의미한다. 이는 특정한 설정으로, LLM 학습 어디에서 모델이 파인튜닝된다 강화학습(RL)을 사용하되, 모호하거나 주관적인 피드백(예: 인간 선호 점수) 대신 답이 객관적으로 맞았는지 틀렸는지에 따른 이진 보상을 사용한다. 예를 들어 수학 문제에서 모델이 정답을 맞히면 1, 틀리면 0을 받는다. 그런 다음 이 보상을 활용해 높은 보상으로 이어지는 응답을 선호하도록 모델을 조정한다.
이 연구는 다음과 같은 모델들을 평가한다 LLaMA, Qwen, 그리고 DeepSeek 수학, 코딩, 시각적 추론 등 다양한 과제에서 서로 다른 강화학습 기법을 적용해 평가한다. 이들은 pass@k 지표를 사용하며, 이는 k개의 샘플 중 적어도 하나가 정답일 확률을 측정한다. RLVR로 학습한 모델은 작은 k에서는 더 높은 성능을 보여 단발 추론 정확도가 개선되었음을 시사한다. 그러나 k가 커질수록 베이스 모델이 성능을 따라잡거나 앞선다. 이 패턴은 RLVR이 새로운 추론 전략을 발견하기보다는 기존 전략으로의 편향을 강화한다는 점을 시사한다.
추가적인 퍼플렉서티 분석에 따르면, RL로 학습된 모델의 추론 경로는 이미 베이스 모델의 출력 분포 안에 존재한다. RLVR은 이러한既知 경로를 선택할 확률만 높여 분포를 좁히고 탐색적 다양성을 감소시킨다. 이는 샘플링 효율을 높이지만, 추론 유연성은 떨어뜨린다.
연구진은 RLVR을, 실제로 새로운 추론 능력을 전이하는 대형 모델로부터의 디스틸레이션과 비교한다. 디스틸된 모델은 원래 모델에 없던 능력이 필요한 과제에서 베이스 모델과 RLVR 모델 모두를 능가한다. 검토된 어떤 RL 기법(PPO, GRPO, RLOO)도, 특히 큰 k에서, 모델의 잠재력을 완전히 끌어내지 못한다. 더 긴 RL 학습은 과적합과 엔트로피 감소로 인해 성능을 더욱 악화시킨다.

LLM 개발에 대한 시사점

종합하면, 이들 연구는 RL 알고리즘이 본질적으로 LLM의 추론 능력을 향상시킨다는 통념을 무너뜨린다. 대신, 이들은 다음을 시사한다: 두 가지 핵심 시사점.
  • 첫째, 성능 향상은 대개 강화학습 알고리즘의 정교함이 아니라 학습 데이터의 더 나은 필터링에서 비롯된다.
  • 둘째, RLVR은 새로운 추론 능력을 만들어내지 못하고 기존 능력의 활용만 최적화하며, 그 과정에서 탐색성과 일반화 성능이 희생되는 경우가 많다.
사후 학습을 진행하는 개발자들에게 이는 중요한 시사점을 제공한다. 목표가 효율적인 학습이라면, 단순성과 안정성 덕분에 RAFT와 Reinforce-Rej 같은 방법이 유망하다. 그러나 모델의 능력을 확장하는 것이 목표라면 RLVR은 기대에 미치지 못할 수 있다. 그 대신 디스틸레이션, 또는 새로운 학습 패러다임이 필요할 수 있으며, 이를 통해 LLM의 추론을 진정한 새로운 영역으로 끌어올릴 수 있다.

이 글은 AI 번역본입니다. 오역이 의심되는 부분이 있으면 댓글로 알려주세요. 원문 보고서 링크는 다음과 같습니다: 원문 보고서 보기