Prioritized Experience Replay
Experience Replay는 수집된 데이터를 반복적으로 활용하면서, 시계열적으로 강하게 상관된 샘플들을 섞어줌으로써 샘플 간 상관성을 효과적으로 제거한다. 이로 인해 샘플 효율성이 크게 향상되었고, 이는 DQN이 딥러닝을 강화학습에 성공적으로 적용할 수 있게 만든 결정적인 전환점이 되었다.
본 논문의 목표는 Experience Replay가 제공하는 샘플 효율성을 한 단계 더 끌어올리는 것이다. 우리의 핵심 아이디어는 난도가 높은 경험일수록 모델의 성능 향상에 더 크게 기여한다는 관찰에 기반하며, 즉 “어려운 문제를 더 많이 접할수록 더 잘하게 된다”는 학습 철학을 알고리즘적 설계로 구체화하는 데에 있다.
우선 기본적인 DQN의 TD error을 확인해보자.

TD error는 현재 Q-network의 예측이 목표(target) 값과 얼마나 차이가 나는지를 측정하는 지표로, 다시 말해 Q-network가 target을 얼마나 잘 맞추지 못했는지를 나타낸다. 따라서 TD error가 큰 transition의 경우 Q-network가 크게 틀리고 있는 영역에 해당하며, 이러한 transition은 정책을 빠르게 개선하는데 더 중요한 정보를 담고 있을 가능성이 높다.
이러한 직관을 바탕으로 본 논문은 TD error의 크기에 비례하여 해당 transition을 더욱 자주 샘플링하도록 설계한다. 즉 어려운 경험을 자주 보게 하는 것을 통해 학습 속도와 샘플 효율을 높이는 것이다. PER에서 샘플링 분포는 다음과 같이 정의된다.

여기서 자연스럽게 제기될 수 있는 질문은, 샘플링 전략을 변경함으로써 에이전트가 학습하게 되는 데이터 분포 자체가 달라지는데도 이것이 왜 문제가 되지 않는가 하는 점이다. 인간 학습에서는 ‘어려운 문제는 쉬운 문제의 개념을 대부분 포함하고 있다’는 직관 때문에 어려운 문제 위주로 학습해도 큰 문제가 없다고 생각할 수 있지만, RL에서는 이러한 직관이 그대로 성립하지 않는다.
강화학습에서 정책은 환경에서 생성되는 on-policy distribution이 아닌, 우리가 설계한 replay buffer의 sampling distribution을 기반으로 업데이트된다. 따라서 PER처럼 TD error 기반으로 샘플링 비율을 왜곡하면, 학습은 더 이상 환경에서 자연스럽게 생성되는 데이터 분포를 따르지 않게 된다. 이는 곧 distribution shift를 유발하며, 최적 정책을 수렴시키는 기존 off-policy Q-learning의 이론적 가정과 충돌할 수도 있다.
이 문제를 완화하기 위해 PER는 importance sampling(IS) 가중치를 도입하여, 샘플링 확률 변화로 생긴 분포 왜곡을 부분적으로 보정하려 한다.

이 $w_i$들 중 최대인 것을 $w_i$에 나눠주어 정규화를 시키고, 그래디언트 업데이트를 할 때 TD error에 곱해줌으로써 보정을 가한다. 만약 $P(i)$가 크다면 uniform 분포 입장에서는 평소보다 더 많이 샘플링하게 되는 것이니 업데이트의 경우 그 가중치를 낮게 주는 것이고, $P(i)$가 작다면 가중치를 더 반영하여 크게 업데이트하는 것이다.
특수 케이스로 $\beta=1$인 경우 정확히 Uniform sampling이 된다:

모델이 거의 수렴하게 되면, 오히려 distribution shift로 인해 모델의 학습이 잘못 되는 위험이 크기 때문에 초반에는 $\beta$를 0.4~0.6으로 유지하다가 후반으로 다가갈수록 $\beta=1$으로 보정한다. 알고리즘도 확인해보자:

실험 하나만 확인해보자:

Rank-base(TD error을 순위 기반으로 우선순위를 매기는 방식)과 Proportional 방식으로 훈련하는 경우 더 빠르게 베이스라인 스코어에 도달하는 것을 볼 수 있으며, 추가적으로 더 성능이 향상되는 포텐셜까지 가졌음을 확인할 수 있다.
논문에는 문제가 없을까? 몇 가지를 생각해보자.
- TD error가 크다는 것이 "더 배울 가치가 있다"는 뜻으로 이어지는 것은 아주 이상적인 케이스에서지, 현실적으로는 TD error가 큰 이유가 noisy reward, function approximation error 등으로 인한 것일 가능성을 배제할 수 없다.
- TD error의 크고 작음만으로는 정책 안정화를 얼마나 기여하는지에 대한 기준을 가질 수 없다.
- Importance sampling으로 분포 보정을 두지만, 여전히 transition에 대한 distribution shift를 완전히 제어할 수 없다.
다음에는 이러한 문제점을 개선하는 논문에 대해서 리뷰하도록 하겠다.
'논문 리뷰 > RL' 카테고리의 다른 글
| HER 논문 리뷰 (1) | 2025.12.11 |
|---|---|
| UVFA 논문 리뷰 (0) | 2025.12.10 |
| Exploration by Random Network Distillation 논문 리뷰 (0) | 2025.12.02 |
| Parameter Space Noise for Exploration 논문 리뷰 (0) | 2025.11.29 |
| TD3 논문 리뷰 (0) | 2025.11.28 |