Study/Reinforcement Learning 11

RLHF 기본적인 정리

Modern RLHF & Post-Training: A Comprehensive GuideFrom InstructGPT to DeepSeek-R1 & Reasoning Models1. 서론: Post-training 패러다임의 변화1.1. 표면적 정렬 가설의 붕괴 (The Fall of LIMA)과거 (2023, LIMA 가설): "모델의 지능은 Pre-training에서 완성되며, SFT(Fine-tuning)는 단지 말투(Style)와 형식만 맞추는 과정이다."현재 (2024+): "틀렸다. Post-training은 모델의 행동(Behavior), 추론 능력(Reasoning), 안전성(Safety)을 결정짓는 핵심 과정이다."증거: DeepSeek-R1이나 OpenAI o1은 강화학습(RL)을 통..

Policy Gradient 4: TRPO & PPO

이전 포스트에서 확인한 IS를 통한 off-poilcy objective의 그래디언트는 다음과 같다: 그러나 gradient 업데이트를 그대로 적용할 수 없고, 적절한 step size를 통해서 점진적으로 업데이트해야만 발산하는 경우와 bad local optima에 빠지는 것을 막을 수 있다. 사실 이러한 이야기는 일반적인 supervised learning에도 적용되는 말이고, 너무나도 당연한 말이다. 다만 off-policy에서 위의 per-step importance sampling은 target policy와 behavior policy의 state distribution이 거의 유사하다는 것을 가정으로 한다.즉 supervised learning보다 한 단계 더 어려운 테스크에 직면하고 있는 ..

Policy Gradient 3: Off-Policy

RecapOff-PolicyOff-policy란 데이터를 수집하는 정책(Behavior Policy)과 학습하려는 정책(Target Policy)이 분리된 강화학습 방법론을 의미한다.일반적인 딥러닝은 데이터가 많을수록 학습 효과가 좋지만, 강화학습은 정책이 업데이트됨에 따라 과거에 수집한 데이터의 분포가 현재 정책과 달라지는(Outdated) 문제가 발생한다. 따라서 On-policy 방식은 이 과거 데이터를 학습에 사용할 수 없어 버려야 하므로 '샘플 효율성(Sample Efficiency)'이 낮다는 단점이 있다.반면, Off-policy 방법론은 과거의 데이터나 다른 정책이 생성한 데이터까지 학습에 적극적으로 재사용(Replay)함으로써, 데이터 부족 문제를 해결하고 학습 효율을 극대화하는 것을 목..

Policy Gradient 2

이전 포스트에서 나온 objective의 그래디언트의 추정은 다음과 같다:이 수식의 $G_t$ term에 $s_t$에 dependent한 함수 $b(s_t)$를 빼준다면와 같은 형태가 될 것이다. 여기서 두 번째 항의 평균을 구해보자.평균이 0이 되는 것을 확인할 수 있고, 이 말은 즉 어떤 좋은 baseline을 빼줌으로써 unbiasedness를 깨뜨리지 않고 variance를 낮출 수 있다는 것을 알 수 있다. 그렇다면 이제 자연스러운 의문은, 그러한 baseline은 어떤 것으로 선택해야 되어야 하는가에 관한 것이다. 이러한 baseline 선택에 관한 내용을 다루기 전에 앞서서, 원래의 objective gradient를 다시 한 번 recap해보자.이를 trajectory에 대한 평균이 아닌,..

Policy Gradient 1 - REINFORCE

기존의 Value-based RL, 예를 들어서 Q-learning의 경우 state-action value function $Q(s,a)$를 학습한 뒤, 이를 기반으로 행동을 결정하는 간접적인 방식을 취한다. 반면 policy gradent는 정책 $\pi_\theta$를 직접 모델링하고 최적화함으로써 이러한 문제를 해결하고자 한다. 우선 notation을 명확히 하자. Finite trajectory를 우선 기본 설정으로 하자.Trajectory) $\tau := (s_0, a_0, s_1, a_1, ..., s_T, a_T)$Trajectory Reward) $R(\tau) = \sum_{i=0}^T R(s_i, a_i) $Trajectory Distribution) $P(\tau;\pi,\the..

Dynamic Programming 3

이전 포스트에서 DP의 대표적인 방법론들인 Policy Iteration과 Value Iteration에 대해서 배웠다. 이 두 방법론을 우선 비교해보고, 그다음에 DP에 대한 추가적인 이해를 가져보도록 하자Policy Iteration vs. Value Iteration1-step computation costPolicy iteration의 경우 우선 bellman expectatio equation인 $v_{\pi}(s) = \sum_{a}\pi(a\mid s)\sum_{r, s'}(r + \gamma v_{\pi}(s))$을 iterative method를 통해서 풀어야 하기 때문에 $O(k\cdot |S|^2)$만큼의 계산 복잡도가 나온다. 이후 policy improvement의 경우 각 sta..

Dynamic Programming 2

Dynamic Programming 1 포스트에서 최적의 value function가 존재하고, 따라서 정의에 의해 $v_* (s) = \max_\pi v_\pi(s)$이며, 그리고 finite MDP에서 action space가 finite이기 때문에 $v_*(s) = \max_a Q_* (s,a)$이므로 각 state에서 이 max를 달성하는 action이 반드시 있기 때문에, 그 action을 취하는 deterministic policy가 optimal policy임을 확인했었다. 그러나 단 한 번의 closed form으로 구할 수 없거나 사실상 불가능하며, iteration을 통해서 구해야 하며, 그러한 DP의 대표적 방법론은 Policy Iteration과 Value Iteration이라는 것..

Dynamic Programming 1

Policy가 더 좋다는 것은 다음과 같은 definition에 의해 표현된다.$$ \pi\geq\pi' \text{ if and only if } v_{\pi}(s) \geq v_{\pi'}(s), \forall s\in\mathcal{S} $$어떤 policy가 모든 state에서 더 큰 expected reward, 즉 value를 제공한다면 그 policy가 다른 policy보다 더 좋다고 말할 수 있는 것이다. 그렇다면 우선, "모든 policy 중에서 가장 좋은 policy가 존재할 수 있는가"에 대한 의문이 제기될 것이다. 이러한 존재성을 확인하기에 앞서서, Bellman Optimal Equation을 먼저 확인해보자.$$ v_{*}(s) = \max_a \sum_{s',r}p(s',r\m..

Bellman Equation

State와 action, 그리고 그에 대한 보상이 있기 때문에 그 state의 가치는 무엇인가, 즉 그 state에 있는 것이 앞으로 얼마만큼의 total reward를 제공하는가에 대한 의문이 들 수 있다. 단순히 state의 가치뿐만 아니라, 그 state에서 어떤 action을 취하는 것이 장기적으로 얼마나 가치있는지에 대해서도 자연스럽게 궁금함이 생긴다. 여기서 핵심은 reward는 즉각적(local) 신호이지만, 우리가 궁금한 가치는 long-term outcome이라는 점이다. 이러한 질문에 답하기 위해 정의된 것이 state value function과 state-action value function이다.State-Value Function & State-Action Value Funti..

Markov Decision Process

이전 포스트를 요약하자면,RL은 agent의 action이 미래의 환경, 즉 state distribution과 reward distribution을 함께 바꾸는 sequential decision problem에서 보상을 최대화하도록 학습하는 방법이다. 여기서 "환경이 어떻게 변하는가"가 자연스럽게 질문으로 발전할 수 있다.이렇게 환경을 formal하게 표현한 것 중 가장 대표적인 것이 Markov Decision Process (MDP)며, 이번 포스트는 MDP에 대해서 알아보고자 한다. 우선 MDP를 이해하기 이전에, Markov Property에 대해서 이해해보자.순수 확률과정 관점에서의 Markov Property의 정의는 다음과 같다:$$ \text{A state } S_t \text{ is ..