논문 리뷰/RL

DQN 논문 리뷰

manfromearth1 2025. 9. 8. 10:57

Playing Atari with Deep Reinforcement Learning


Summary

DQN은 Q-learning을 신경망으로 확장하면서 Experience ReplayTarget Network로 안정성을 확보하여, 픽셀 입력만으로 end-to-end 학습이 가능함을 보여주었고, Atari 게임 49종에서 전문가 수준의 성능을 달성하며 딥러닝과 강화학습을 연결하는 시대를 연 대표 논문이다.


Preliminary

Q-Learning

Policy $\pi$를 따로 최적화하지 않고 단순히 state-action value 함수인 $Q$에서 최적의 행동을 취하는 전략이다. 즉

$$ \pi^{*}(s) = \arg \max_{a} Q^{*}(s,a) $$

이며, 여기서 $Q^{*}$는 Bellman 최적 방정식에 의해 도출되는 행동-가치 함수로, 즉 "현재 보상 + 다음 상태에서의 최적 행동 가치"로 정의된다. 실제로는 iteration method를 통해서 근사값으로 얻어진다.

 

최적의 $Q^{*}$는 다음과 같은 알고리즘으로 얻어진다:

$$ Q(s_t, a_t) \leftarrow (1-\alpha) \cdot Q(s_t, a_t) + \alpha \cdot (r_t + \gamma \cdot \max_{a} Q(s_{t+1}, a) )$$

여기서 $\alpha$는 learning rate, $\gamma$는 할인율, $r_t$는 보상에 해당한다.


Methods

DQN은 (1) Q-Learning을 딥러닝에 적용시켰다는 것, 강화학습에서 딥러닝으로 인한 불안정성을 해결하기 위해 (2) Target Network와 (3) Experience Replay를 도입한 것이 특징이다.

DQN

Neural network로 근사한 state-action value 함수 $Q$ (이하 Q-Network)는 패러미터 $\theta$를 가진다. 학습 과정에서 Q-Network인 $Q(s,a, \theta)$는 i번째 iteration에서 target인 $y_i$와의 차이를 최소화하는 MSE loss를 줄이는 방향으로 업데이트 된다. 즉 다음과 같다:

여기서 target $y_o$는 $y_i = \mathbb{E}_{s' \sim {\mathcal{E}}}[r + \gamma \max_{a'}{Q(s',a';\theta_{i-1})} | s,a] $이다.

 

Gradient Update는 다음과 같다(관습상 1/2가 빠진 것 같다):

Target Network

단순히 매 iteration마다 샘플링을 통해서 target $y_i$를 만들고 $Q$를 학습시키는 것은 안정성을 해칠 수 있다. 즉 매 스텝마다 타깃을 업데이트하면, 따라가야 하는 라벨이 고정되어 있지 않고 계속 움직이는 moving target problem이 생겨 학습이 수렴하지 않을 수 있다는 문제점이 있다.

따라서 본 논문에서는 타깃 $y$ 계산 시 $\theta^-$라는 별로의 고정된 패러미터를 사용하고, 일정 주기마다만 $\theta$로 복사하여 고정된 타깃을 통해 학습하고자 하는 함수가 안정적으로 학습할 수 있도록 한다.

Experience Replay

과거 transition $(s, a, r, s')$은 하나의 trajectory를 그리기 때문에 상관성이 높고, 강화학습 특성상 이러한 데이터는 딥러닝 모델으로 학습하기에는 부족하다는 문제점이 있다. 따라서 본 논문은 이러한 transition을 랜덤 샘플링을 통하여 학습하여 데이터의 i.i.d 가정을 근사시키며, 샘플 효율 또한 늘릴 수 있음을 보여주었다.

 

알고리즘은 다음과 같다:


Experiments

좋은 결과가 나왔음을 알 수 있다.


Conclusion

DQN은 Q-learning을 신경망으로 확장하면서 데이터 부족과 학습 안정성에 관한 문제를 Experience Replay Target Network로 해결했다는 점에서 그 의의가 있으며, 특히 end-to-end로 강화학습 모델을 학습할 수 있는 것을 보여주었다는 점이 이 논문의 핵심 기여이다. 

'논문 리뷰 > RL' 카테고리의 다른 글

DDQN 논문 리뷰  (1) 2025.11.08
MCTS 논문 리뷰  (0) 2025.10.04
PPO 논문 리뷰  (0) 2025.09.07
RLHF 논문 리뷰  (0) 2025.09.02
DDPO 논문 리뷰  (0) 2025.09.02