논문 리뷰/RL

DQN 논문 리뷰

manfromearth1 2025. 9. 8. 10:57

Playing Atari with Deep Reinforcement Learning

Summary

DQN은 Q-learning을 신경망으로 확장하면서 Experience Replay와 Target Network로 안정성을 확보하여, 픽셀 입력만으로 end-to-end 학습이 가능함을 보여주었고, Atari 게임 49종에서 전문가 수준의 성능을 달성하며 딥러닝과 강화학습을 연결하는 시대를 연 대표 논문이다.

Preliminary

Q-Learning

Policy $\pi$를 따로 최적화하지 않고 단순히 state-action value 함수인 $Q$에서 최적의 행동을 취하는 전략이다. 즉

$$ \pi^{*}(s) = \arg \max_{a} Q^{*}(s,a) $$

이며, 여기서 $Q^{*}$는 Bellman 최적 방정식에 의해 도출되는 행동-가치 함수로, 즉 "현재 보상 + 다음 상태에서의 최적 행동 가치"로 정의된다. 실제로는 iteration method를 통해서 근사값으로 얻어진다.

최적의 $Q^{*}$는 다음과 같은 알고리즘으로 얻어진다:

$$ Q(s_t, a_t) \leftarrow (1-\alpha) \cdot Q(s_t, a_t) + \alpha \cdot (r_t + \gamma \cdot \max_{a} Q(s_{t+1}, a) )$$

여기서 $\alpha$는 learning rate, $\gamma$는 할인율, $r_t$는 보상에 해당한다.

Methods

DQN은 (1) Q-Learning을 딥러닝에 적용시켰다는 것, 강화학습에서 딥러닝으로 인한 불안정성을 해결하기 위해 (2) Target Network와 (3) Experience Replay를 도입한 것이 특징이다.

DQN

Neural network로 근사한 state-action value 함수 $Q$ (이하 Q-Network)는 패러미터 $\theta$를 가진다. 학습 과정에서 Q-Network인 $Q(s,a, \theta)$는 i번째 iteration에서 target인 $y_i$와의 차이를 최소화하는 MSE loss를 줄이는 방향으로 업데이트 된다. 즉 다음과 같다:

여기서 target $y_o$는 $y_i = \mathbb{E}_{s' \sim {\mathcal{E}}}[r + \gamma \max_{a'}{Q(s',a';\theta_{i-1})} | s,a] $이다.

Gradient Update는 다음과 같다(관습상 1/2가 빠진 것 같다):

Target Network

단순히 매 iteration마다 샘플링을 통해서 target $y_i$를 만들고 $Q$를 학습시키는 것은 안정성을 해칠 수 있다. 즉 매 스텝마다 타깃을 업데이트하면, 따라가야 하는 라벨이 고정되어 있지 않고 계속 움직이는 moving target problem이 생겨 학습이 수렴하지 않을 수 있다는 문제점이 있다.

따라서 본 논문에서는 타깃 $y$ 계산 시 $\theta^-$라는 별로의 고정된 패러미터를 사용하고, 일정 주기마다만 $\theta$로 복사하여 고정된 타깃을 통해 학습하고자 하는 함수가 안정적으로 학습할 수 있도록 한다.

Experience Replay

과거 transition $(s, a, r, s')$은 하나의 trajectory를 그리기 때문에 상관성이 높고, 강화학습 특성상 이러한 데이터는 딥러닝 모델으로 학습하기에는 부족하다는 문제점이 있다. 따라서 본 논문은 이러한 transition을 랜덤 샘플링을 통하여 학습하여 데이터의 i.i.d 가정을 근사시키며, 샘플 효율 또한 늘릴 수 있음을 보여주었다.

알고리즘은 다음과 같다:

Experiments

좋은 결과가 나왔음을 알 수 있다.

Conclusion

DQN은 Q-learning을 신경망으로 확장하면서 데이터 부족과 학습 안정성에 관한 문제를 Experience Replay와 Target Network로 해결했다는 점에서 그 의의가 있으며, 특히 end-to-end로 강화학습 모델을 학습할 수 있는 것을 보여주었다는 점이 이 논문의 핵심 기여이다.

'논문 리뷰 > RL' 카테고리의 다른 글

DDQN 논문 리뷰 (1)	2025.11.08
MCTS 논문 리뷰 (0)	2025.10.04
PPO 논문 리뷰 (0)	2025.09.07
RLHF 논문 리뷰 (0)	2025.09.02
DDPO 논문 리뷰 (0)	2025.09.02

현재글DQN 논문 리뷰

manfromearth1 님의 블로그

manfromearth1 님의 블로그 입니다.

I-JEPA, BitCoin, kstreams, mlflow, RLHF, Adversarial Preference Learning for Robust LLM Alignment, apo, docker, Kafka,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

manfromearth1 님의 블로그

DQN 논문 리뷰

Playing Atari with Deep Reinforcement Learning

Summary

Preliminary

Q-Learning

Methods

DQN

Target Network

Experience Replay

Experiments

Conclusion

'논문 리뷰 > RL' 카테고리의 다른 글

'논문 리뷰/RL'의 다른글

티스토리툴바

DQN 논문 리뷰

Playing Atari with Deep Reinforcement Learning

Summary

Preliminary

Q-Learning

Methods

DQN

Target Network

Experience Replay

Experiments

Conclusion

'논문 리뷰 > RL' 카테고리의 다른 글

'논문 리뷰/RL'의 다른글

관련글

티스토리툴바