너무 부끄러운 이야기지만 강화학습 랩실 들어가서 교수님한테 Sutton & Barto 교과서 DP까지 설명을 하다가 무한질문폭탄에 혼쭐이 나서 처음부터 강화학습을 하나씩 서술해가는 방향으로 공부해야겠다는 생각에 이렇게 이제 글을 쓰게 된다.
그래서 첫 시작은 RL의 정의와 RL을 왜 하는 것인가에 대한...것이다!
Definition
Reinceforcement learning is framework for sequential decision making for learning what to do -- how to map the given situations to the actions -- to maximize a numerical reward signal. The learner is not told which actions to take, but instead must discover which actions yield the most reward by trying them.
우선 강화학습이란 주어진 상태에 대해서 reward signal을 최대화하도록 학습하는 방법을 말한다. 여기서 learner 즉 강화학습에서 agent, given situation에서 action을 매핑하는 주체는 단순히 어떤 행동을 해야 한다는 지시를 받는 것이 아니라, 어떤 행동이 reward를 가장 최대화하는지 시도함으로써 스스로 알아내야 한다.
이번에는 강화학습과 다른 대표적인 학습 방법, Supervised Learning과 Unsupervised Learning와의 차이점을 알아보자.
RL vs. Supervised Learning
사실 Supervised Learning도 RNN/Transformer/Time Series model 같이 sequential data를 다루는 것이 가능하다. 어떤 점이 다른지 확인해보자.
- Supervised Learning의 objective는 supervised loss 최소화이고, RL은 long-term reward 최대화이다.
- Supervised Learning에서 모든 ground truth label을 제공할 수 없지만, 애초에 sample 별로 어떤 label, 혹은 어떤 값이라는 direct mapping이 존재하는 것을 가정한다. 그러나 RL은 애초에 그러한 target 자체를 정의하지 않는다. RL은 애초에 이러한 mapping target 자체가 environment dynamics와 reward를 통해 간접적으로만 정의된다.
- Sequential data를 둘 다 다룰 수는 있지만, supervised learning은 action이 아닌 prediction이다. 물론 classification으로 action 자체를 선택할 수는 있지만, 그것이 그 다음 hidden state를 조절할 뿐 환경 자체를 바꾸지 못한다. RL은 기본적으로 action에 의해 환경 자체가 바뀌는 것을 가정한다.
단순히 reward signal을 전부 다 줄 수 없거나 reward shaping이 어렵다는 것을 차이점으로 보면, supervised learning도 현실적 한계로 모든 label을 다 줄 수 없으며 label shaping이 어려울 수 있기 때문에 RL과의 구분이 흐려진다. 그러나 본질적인 차이는 casual effect가 존재하는지 여부와 target과 object 구조임을 명시하자.
RL vs. Unsupervised Learning
Unsupervised Learning은 label되지 않은 데이터 집합에서 hidden structure, pattern을 찾아내도록 학습하는 과정을 말한다. RL 또한 주어진 환경의 hidden structure을 알아내어 보상을 최대화하는 방향으로 action을 하는 것이 중요하기는 하지만, RL은 보상 최대화가 주된 objective이지, hidden structure uncovering이 주된 목적이 아님을 명시하자. 즉 RL에서 hidden structure을 이해하는 것은 reward maximization을 위한 도구일 뿐이라는 것이다.
앞서 보았듯이, RL은 agent의 action이 다음 state distribution을 바꾸는 sequential decision model이다. 그렇다면 다음과 같은 질문이 자연스럽게 생긴다.
"환경이 어떻게 변하는가?"
"State는 어떤 규칙으로 transition 되는가?"
이를 formal하게 표현한 것 중 하나가 Markov Decision Process (MDP)이다. 사실 이런 sequential decision making의 formalism은 MDP 하나만 있는 것이 아니라, POMDP, Stochastic games, Bandit... 등등 다양한 형태가 존재한다.
그런데 왜 MDP를 가장 중요하게 다루는가? 다음과 같은 이유에서 근거한다.
- Mininal한 assumption, 즉 Markov Property(현재 state는 직전의 state에만 영향 받음) 하나만 가정함으로써 이론/증명/최적성/수렴 등의 분석이 가능한 mathematically tractable한 문제가 된다.
- RL에서 배우는 core method, value iteration, policy iteration 등이 대부분 MDP 구조에서 시작한다.
- 다른 formalism이 MDP의 확장인 것도 하나의 이유다.
다음 글에서는 MDP에 대한 definition을 확인해보도록 하자.
'Study > Reinforcement Learning' 카테고리의 다른 글
| Dynamic Programming 3 (0) | 2025.11.10 |
|---|---|
| Dynamic Programming 2 (0) | 2025.11.10 |
| Dynamic Programming 1 (0) | 2025.11.10 |
| Bellman Equation (0) | 2025.11.10 |
| Markov Decision Process (0) | 2025.11.09 |