논문 리뷰/RL

PER 논문 리뷰

manfromearth1 2025. 12. 5. 01:39

Prioritized Experience Replay

Experience Replay는 수집된 데이터를 반복적으로 활용하면서, 시계열적으로 강하게 상관된 샘플들을 섞어줌으로써 샘플 간 상관성을 효과적으로 제거한다. 이로 인해 샘플 효율성이 크게 향상되었고, 이는 DQN이 딥러닝을 강화학습에 성공적으로 적용할 수 있게 만든 결정적인 전환점이 되었다.

본 논문의 목표는 Experience Replay가 제공하는 샘플 효율성을 한 단계 더 끌어올리는 것이다. 우리의 핵심 아이디어는 난도가 높은 경험일수록 모델의 성능 향상에 더 크게 기여한다는 관찰에 기반하며, 즉 “어려운 문제를 더 많이 접할수록 더 잘하게 된다”는 학습 철학을 알고리즘적 설계로 구체화하는 데에 있다.

우선 기본적인 DQN의 TD error을 확인해보자.

TD error는 현재 Q-network의 예측이 목표(target) 값과 얼마나 차이가 나는지를 측정하는 지표로, 다시 말해 Q-network가 target을 얼마나 잘 맞추지 못했는지를 나타낸다. 따라서 TD error가 큰 transition의 경우 Q-network가 크게 틀리고 있는 영역에 해당하며, 이러한 transition은 정책을 빠르게 개선하는데 더 중요한 정보를 담고 있을 가능성이 높다.

이러한 직관을 바탕으로 본 논문은 TD error의 크기에 비례하여 해당 transition을 더욱 자주 샘플링하도록 설계한다. 즉 어려운 경험을 자주 보게 하는 것을 통해 학습 속도와 샘플 효율을 높이는 것이다. PER에서 샘플링 분포는 다음과 같이 정의된다.

여기서 자연스럽게 제기될 수 있는 질문은, 샘플링 전략을 변경함으로써 에이전트가 학습하게 되는 데이터 분포 자체가 달라지는데도 이것이 왜 문제가 되지 않는가 하는 점이다. 인간 학습에서는 ‘어려운 문제는 쉬운 문제의 개념을 대부분 포함하고 있다’는 직관 때문에 어려운 문제 위주로 학습해도 큰 문제가 없다고 생각할 수 있지만, RL에서는 이러한 직관이 그대로 성립하지 않는다.

강화학습에서 정책은 환경에서 생성되는 on-policy distribution이 아닌, 우리가 설계한 replay buffer의 sampling distribution을 기반으로 업데이트된다. 따라서 PER처럼 TD error 기반으로 샘플링 비율을 왜곡하면, 학습은 더 이상 환경에서 자연스럽게 생성되는 데이터 분포를 따르지 않게 된다. 이는 곧 distribution shift를 유발하며, 최적 정책을 수렴시키는 기존 off-policy Q-learning의 이론적 가정과 충돌할 수도 있다.

이 문제를 완화하기 위해 PER는 importance sampling(IS) 가중치를 도입하여, 샘플링 확률 변화로 생긴 분포 왜곡을 부분적으로 보정하려 한다.

이 $w_i$들 중 최대인 것을 $w_i$에 나눠주어 정규화를 시키고, 그래디언트 업데이트를 할 때 TD error에 곱해줌으로써 보정을 가한다. 만약 $P(i)$가 크다면 uniform 분포 입장에서는 평소보다 더 많이 샘플링하게 되는 것이니 업데이트의 경우 그 가중치를 낮게 주는 것이고, $P(i)$가 작다면 가중치를 더 반영하여 크게 업데이트하는 것이다.

특수 케이스로 $\beta=1$인 경우 정확히 Uniform sampling이 된다:

모델이 거의 수렴하게 되면, 오히려 distribution shift로 인해 모델의 학습이 잘못 되는 위험이 크기 때문에 초반에는 $\beta$를 0.4~0.6으로 유지하다가 후반으로 다가갈수록 $\beta=1$으로 보정한다. 알고리즘도 확인해보자:

실험 하나만 확인해보자:

Rank-base(TD error을 순위 기반으로 우선순위를 매기는 방식)과 Proportional 방식으로 훈련하는 경우 더 빠르게 베이스라인 스코어에 도달하는 것을 볼 수 있으며, 추가적으로 더 성능이 향상되는 포텐셜까지 가졌음을 확인할 수 있다.

논문에는 문제가 없을까? 몇 가지를 생각해보자.

TD error가 크다는 것이 "더 배울 가치가 있다"는 뜻으로 이어지는 것은 아주 이상적인 케이스에서지, 현실적으로는 TD error가 큰 이유가 noisy reward, function approximation error 등으로 인한 것일 가능성을 배제할 수 없다.
TD error의 크고 작음만으로는 정책 안정화를 얼마나 기여하는지에 대한 기준을 가질 수 없다.
Importance sampling으로 분포 보정을 두지만, 여전히 transition에 대한 distribution shift를 완전히 제어할 수 없다.

다음에는 이러한 문제점을 개선하는 논문에 대해서 리뷰하도록 하겠다.

'논문 리뷰 > RL' 카테고리의 다른 글

HER 논문 리뷰 (1)	2025.12.11
UVFA 논문 리뷰 (0)	2025.12.10
Exploration by Random Network Distillation 논문 리뷰 (0)	2025.12.02
Parameter Space Noise for Exploration 논문 리뷰 (0)	2025.11.29
TD3 논문 리뷰 (0)	2025.11.28

현재글PER 논문 리뷰

manfromearth1 님의 블로그

manfromearth1 님의 블로그 입니다.

apo, mlflow, BitCoin, I-JEPA, Adversarial Preference Learning for Robust LLM Alignment, RLHF, docker, Kafka, kstreams,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

manfromearth1 님의 블로그

PER 논문 리뷰

Prioritized Experience Replay

'논문 리뷰 > RL' 카테고리의 다른 글

'논문 리뷰/RL'의 다른글

티스토리툴바

PER 논문 리뷰

Prioritized Experience Replay

'논문 리뷰 > RL' 카테고리의 다른 글

'논문 리뷰/RL'의 다른글

관련글

티스토리툴바