EVOLUTION STRATEGIES AT SCALE: LLM FINETUNING BEYOND REINFORCEMENT LEARNING
본 논문은 최근 언어모델(LLM) 파인튜닝의 주류 방법론으로 자리 잡은 강화학습(RL) 기반 접근법(예: PPO, GRPO 등)을 대체할 수 있는 새로운 방법으로 Evolution Strategies (ES) 를 제시한다. 저자들은 ES가 단순히 “gradient-free” 대안일 뿐만 아니라, 실제로 다양한 크기와 종류의 언어모델에서 RL을 능가하는 성능을 달성할 수 있음을 실험적으로 입증한다.
주요 기여는 다음과 같다:
- 샘플 효율성(Sample Efficiency): ES는 수십억 개의 파라미터를 갖는 대형 모델에서도 RL보다 훨씬 적은 데이터로 동일하거나 더 높은 성능을 달성한다. 특히 Countdown과 같은 상징적 추론 벤치마크에서 RL의 20% 이하의 샘플만으로 같은 수준의 성능을 보였다.
- 소형 모델 성능 개선: PPO나 GRPO가 소규모 모델(예: 0.5B)에서는 거의 학습이 진행되지 않는 반면, ES는 동일한 조건에서 의미 있는 성능 향상을 달성하며, 초기 모델이 약하더라도 학습을 유도할 수 있다.
- 파라미터 공간 탐색의 장점: ES는 행동(action) 공간 대신 파라미터(parameter) 공간에서 직접 탐색하기 때문에, 기존 모델이 학습한 정책이 한계에 부딪히는 상황에서도 더 나은 해를 찾아낼 수 있다.
- 행동적 차이: ES는 모델의 능력을 유지하면서도 새로운 특성을 학습하는 데 유리하며, 보상과 KL 발산 간의 트레이드오프에서 RL과 다른 특성을 보인다.
기본적으로 ES 알고리즘이 어떻게 이루어지는지 확인해보자.

각 반복마다 가우시안 노이즈를 따르는 $\epsilon_n$을 생성한 후, 이를 언어모델 패러미터 $\theta$에 대하여 perturbation을 적용해준다. 이렇게 perturb가 된 패러미터를 바탕으로 언어모델이 응답을 생성하고(위 pseudo code에서는 단순히 패러미터에 대한 보상을 제공한다고 하는데, 언어모델이 응답을 생성하고 그것에 대한 보상을 얻는 것과 패러미터에 대하여 보상을 evaluate하는 것 모두 상관없다) 나온 보상 * 노이즈들에 대해서 평균을 낸 후 패러미터를 업데이트 한다.
더 자세한 ES 알고리즘은 다음과 같다.

길어보여서 복잡해보이지만, 사실은 보상을 Z-score로 정규화시키는 것 이외에는 크게 달라지는 것이 없다. 실험의 재현성과 공정성을 위해서 N개의 랜덤 시드를 바탕으로 노이즈를 생성하였으며, greedy decoding을 적용하여 파라미터가 달라진 것과 출력이 달라지는 것을 연결하였다는 것만 추가적으로 확인하자.
Experiments

단순히 ES 방법론이 PPO나 GRPO를 이겼다는 것과 구현이 단순하다는 것에 장점을 지닌다는 것으로 ES의 장점을 서술하기에는 모자라다. 0.5B모델에 대해서 높은 성능을 올렸다는 것이 고무적이다. 기본적으로 RL 방법론은 작은 패러미터 사이즈를 가지는 모델에게는 훈련 과정에서 모델이 수렴하지 않고 발산하는 문제 때문에 적용이 사실상 불가능했는데, ES는 그래디언트 방식으로 모델을 적합시키는 것이 아닌 perturbation 방식으로 모델을 적합시키기 때문에 안정적일 수 있는 것이다.

KL 다이버전스를 확인해보자. 수식은 다음과 같다.

기존 모델(BASE)에 GRPO, ES(FT)를 적용했을 때 기존 모델과 얼마나 달라지는지에 대한 실험이다. ES를 적용하는 경우 보상이 GRPO에 비해서 높으며, 보상 자체도 작은 오차를 가지는 것을 확인할 수 있다. KL 다이버전스도 낮은 것으로 보아 모델이 기존의 다른 성능을 잃지 않으면서 보상을 높이도록 적합되었음을 알 수 있다.
본 논문은 Discussion에서 중요한 말을 해준다:

분포를 최적화한다는 말이 굉장히 인상적이다. RL에서는 하나의 해답을 직접 찾아 그것을 최적화하는데에 반해, ES는 해답의 분포 자체를 전체적으로 학습하기 때문에 전체적인 강건성도 증가하면서, 자연스러운 성능 증가를 도모할 수 있는 것이다.
'논문 리뷰 > NLP' 카테고리의 다른 글
| KTO 논문 리뷰 (0) | 2025.12.06 |
|---|---|
| Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning 논문 리뷰 (0) | 2025.10.09 |
| GTE 논문 리뷰 (1) | 2025.08.28 |
| Self-Rewarding Language Models 논문 리뷰 (0) | 2025.08.19 |
| APL 논문 리뷰 (1) | 2025.08.18 |