논문 리뷰/RL

TD3 논문 리뷰

manfromearth1 2025. 11. 28. 22:37

Addressing Function Approximation Error in Actor-Critic Methods

Summary

본 연구는 연속 행동 공간(Continuous Action Space) 제어에서 널리 사용되는 DDPG 알고리즘의 성능 저하 원인을 Function Approximation Error 관점에서 분석한다. 기존 DDPG는 가치 함수의 Overestimation Bias과 이로 인한 오차 축적 문제로 인해 학습이 불안정해지는 한계가 있었다. 이를 극복하기 위해 본 논문은 TD3 (Twin Delayed Deep Deterministic Policy Gradient) 알고리즘을 제안한다.

TD3는 Clipped Double Q-Learning을 도입하여 두 Critic 간의 최솟값을 취함으로써 과대평가를 구조적으로 억제하고, Delayed Policy Updates를 통해 가치 함수가 수렴할 때까지 정책 업데이트를 지연시켜 Actor-Critic 간의 공진 발산을 방지한다. 또한, Target Policy Smoothing을 통해 타겟 행동에 노이즈를 주입함으로써 Q-함수의 부정확한 피크(Sharp Peaks)에 대한 과적합을 막고 정규화(Regularization) 효과를 유도한다.

본 논문의 주요 파트인 4. Overestimation bias, 5. Adressing variance에 대해서 살펴보도록 하자.

Overestimation Bias

우선 Q-learning의 경우 overestimation bias는 잘 알려져있듯이 greedy target $y=r+\gamma\max_{a'} Q(s',a')$에 오차가 존재하기 때문에, 실제 true maximum보다 커지는

$$ E_\epsilon [\max_{a'}(Q(s',a')+\epsilon)] \geq \max_{a'} Q(s',a') $$

와 같은 상황이 일어날 수 있다는 것을 알 수 있다. 이러한 과대평가 편향은 벨만 업데이트 과정에서 부트스트래핑(Bootstrapping)을 통해 지속적으로 누적되며, 결과적으로 에이전트가 최적이지 않은 정책(Suboptimal Policy)으로 수렴하거나 발산하게 만드는 주된 원인이 된다. 본 논문은 이러한 overestimation이 단순히 Q-learning 같은 value-based 아키텍처에게만 주로 다뤄지는 것이 아니라 말하며, actor-critic 구조에서도 얼마든지 일어날 수 있음을 보인다.

True state-action value function을 바탕으로 그래디언트 업데이트를 해서 나오는 $\phi_\text{true}$와 NN을 통해 업데이트되는 $\phi_\text{approx}$이다. 이제 오차가 어떻게 증폭되는지 확인하자.

각자의 state-action value function 세계 안에서는, 그에 맞게 적합된 policy의 행동이 더 좋은 가치를 낼 것이므로, 타당한 말이다. 만약 여기서 overestimation bias가 일어난다면, 즉

실제 참 행동에도 근사된 state-action value 함수가 더 좋은 값을 낸다면 다음과 같은 부등식이 만족된다.

즉 우리가 approximation을 통해 얻은 state-action value function에 대해 어떠한 행동을 하는 것은, 그의 참 값(우변)보다 더 큰 값을 낼 것이고, 결과적으로 critic이 overestimate되고, 그에 따라 policy는 정책을 바꾸고, 그 바꾼 정책을 따라 critic이 또 overestimate하는 결과가 이어진다는 것이다. 논문에서는 그러한 overestimation bias가 그 당시의 SOTA인 DDPG에서도 일어남을 보여준다.

여기서 본 논문은 clipped double-Q framework을 제안하는데, 이는 다음과 같다:

여기서 들 수 있는 합리적인 의문 두가지는, 1) Double Q-learning 구조는 왜 하지 않았는가와 2) min으로 target을 설정하는 것이 실제 model-based MDP에서도 수렴을 보장하는가이다. 2)는 너무 내용이 복잡해져 따로 참고하시길 바란다... 수렴 가능하다가 결론이다.

1)에 대해서 답해보자. Double Q-learning의 구조이다. 곧바로 Q값이 최대화되는 action을 선택하는 것이 아니라, 다른 Q function이 argmax되는 행동을 뽑은 뒤, 그 행동을 인풋으로 받아 Q를 아웃풋하는 구조이다. 좋은 방법임은 분명하다. 하나의 Q의 max-선택이 다른 Q에게는 최대가 아닐 수 있기 때문에 overestimation이 줄어드는 효과가 있다. 우선 그러지 못하는 경우, 하나의 최대 선택이 다른 Q에도 최대 선택과 가까울 수 있다는 것이 문제이기는 하다. 그러나 이러한 단점은 clipped double-Q 구조도 똑같이 문제로 있다. 진짜 단점은 continuous space에서 max되는 행동을 찾고, 그 행동을 다른 Q에 넘겨줘야 한다는 것이다. Clipped double-Q는 그냥 선택된 action에 대한 value를 두개 내주고 최솟값을 택하면 되는데, argmax의 행동을 찾는 것은 continuous에서 어려울 뿐만 아니라, discrete라도 action space가 넓은 경우계산량이 지나치게 커질 수 있다.

Addressing Variance

Actor-Critic 구조는 기본적으로 Temporal difference 업데이트 구조이다. State-action value의 근사는 TD 에러와 보상의 차이의 합으로 표현할 수 있다:

강화학습은 안그래도 먼 미래를 보는 특성 때문에 오차가 누적되는데, 이에 더해서 미니배치 학습 방법 때문에 전체적인 안정성을 잡기 힘들어진다. 이에 대해서 본 논문은 Target network와 delayed policy update를 가져온다. 잘 이해하자! 이걸 가져온다고 오차를 잡는 것이 아니라, 오차가 누적되는 탓에 나오는 분산 증가를 막아준다는 것이다.

(b)를 집중하자. Actor-critic 학습 과정에서 target policy 자체가 없거나 EMA coef가 큰 경우 분산이 날뛰는 것을 볼 수 있다. 반면 EMA coefficient를 두는 경우 policy가 안정적인 업데이트를 가져감을 확인할 수 있다. EMA의 중요성에 대해서는 입이 닳도록 이야기했기 때문에 넘어가도록 하겠다. EMA만 둔 것이 아니라, policy 자체도 업데이트 주기를 높이거나 EMA로 두어 안정성을 확보하기도 한다.

TD3은 기본적으로 deterministic policy gradient이다. 따라서 본 논문은 target에 대해서 Expected SARSA와 smoothing regularization을 적용한다. 즉

샘플 하나이지만 실제로 Monte Carlo 근사가 일어나기 때문에 expected SARSA가 맞다. 여기에 더불어 epsilon term을 두어 policy가 deterministic하지만 확률적으로 그 action을 틀어버릴 수 있다. 직관적으로 왜 continuous action space에서 더 좋은지 감이 올 것이다.

업데이트는 위와 같은 방식이다. 여기서 policy는 deterministic이기 때문에, policy가 아웃풋으로 내는 a는 어떠한 확률변수가 아닌 결정적인 값이 되고, 따라서 policy의 확률분포를 직접적으로 미분한다든가 action을 reparameterization하는 방법으로 미분하는 것이 필요없어지는 것이다. Stochastic policy와 Deterministic policy를 구분해보면 편하다.

보통 가장 분산이 적은 policy gradient 방법이라고 알려져있는데, 최악의 경우에는 deterministic인 탓에 잘못된 Q를 바탕으로 policy를 학습하는 경우 스스로 그 bad optima에 빠져나오지 못하기도 한다.

알고리즘은 다음과 같다:

이만... 집을 가고 싶은 이슈로 리뷰를 마치도록 하겠다...

'논문 리뷰 > RL' 카테고리의 다른 글

Exploration by Random Network Distillation 논문 리뷰 (0)	2025.12.02
Parameter Space Noise for Exploration 논문 리뷰 (0)	2025.11.29
SAC 논문 리뷰 (0)	2025.11.15
DDQN 논문 리뷰 (1)	2025.11.08
MCTS 논문 리뷰 (0)	2025.10.04

현재글TD3 논문 리뷰

manfromearth1 님의 블로그

manfromearth1 님의 블로그 입니다.

apo, RLHF, mlflow, Adversarial Preference Learning for Robust LLM Alignment, Kafka, docker, I-JEPA, kstreams, BitCoin,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

manfromearth1 님의 블로그

TD3 논문 리뷰

Addressing Function Approximation Error in Actor-Critic Methods

Summary

Overestimation Bias

Addressing Variance

'논문 리뷰 > RL' 카테고리의 다른 글

'논문 리뷰/RL'의 다른글

티스토리툴바

TD3 논문 리뷰

Addressing Function Approximation Error in Actor-Critic Methods

Summary

Overestimation Bias

Addressing Variance

'논문 리뷰 > RL' 카테고리의 다른 글

'논문 리뷰/RL'의 다른글

관련글

티스토리툴바