논문 리뷰/RL

Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning

manfromearth1 2026. 5. 25. 23:00

강화학습 논문을 읽을 때는 단순히 objective나 update rule만 따라가는 것으로는 부족하다. 특히 어떤 문제를 해결하려고 등장했는지, 다시 말해 motivation 을 이해하는 것이 중요하다. AWR(Advantage-Weighted Regression) 역시 마찬가지다. 이 논문은 단순히 새로운 actor-critic 변형을 제안하는 것이 아니라,

좋은 행동 데이터가 이미 존재할 때, policy가 data distribution을 벗어나지 않는 선에서 얼마나 공격적으로 업데이트해야 하는가?

라는 질문에서 출발한다.

 

기존의 강화학습 알고리즘들은 exploration을 통해 더 나은 행동을 찾는 데 강점을 가진다. 하지만 실제 환경에서는 무작정 새로운 행동을 시도하는 것이 위험하거나 비용이 클 수 있다. 또한 demonstration, replay buffer, offline trajectory처럼 이미 수집된 데이터를 효율적으로 활용하고 싶은 상황도 많다. AWR은 이러한 맥락에서, return이 높았던 행동을 더 강하게 imitation하도록 한다.

바로 Method를 확인해보자.

 

Method

앞서 언급했듯이, AWR은 expected reward를 직접적으로 최대화하는 것이 아닌 expected improvement $\eta(\pi)=J(\pi)-J(\mu)$를 최대화한다. 여기서 $\mu$는 sampling policy인데, 자세한 내용은 이후에 다루도록 하겠다.

Expected improvement는 다음과 같이 advantage에 관한 term으로 표현될 수 있다:

여기서 $\mathcal R$은 $\mu$를 따를 때 state s에서 action a를 할 때의 return이며, $V^\mu$는 $\mu$를 따르는 확률분포 하에서의 $\mathcal R$의 평균이다. 다만 $d_\pi$를 구하는 것이 사실상 불가능하기 때문에 논문에서는 다음과 같은 proxy를 도입하며:

$d_\pi$와 $d_\mu$가 크게 차이나지 않도록 다음과 같은 constrained policy optimization을 만들게 된다:

해당 형태를 Lagrange 식으로 풀다보면 강화학습을 공부하는 사람이라면 꽤 자주 보는

와 같은 형태가 나오며, 실제 optimal policy를 얻기 위해서

로 최종적인 derivation이 일어나게 된다. 여기까지가 single sampling policy $\mu$를 바탕으로 한 최적화 방법이었고, 논문은 좀 더 generalized된 mixture of policies에 대한 policy improvement를 설명한다.

 

Experience Replay and Off-Policy Learning

최적화하는 대상은 같지만, 실제로는 업데이트마다의 policy가 매번 다르기 때문에 single sampling policy $\mu$를 단순히 가정하기는 어렵다. 그렇다고 on-policy의 최대 약점인 sample inefficiency를 그대로 안고 갈 수는 없다. 각 iteration step i마다의 policy를 $\pi_i$라 하고, replay buffer에서 policy $\pi_i$의 샘플이 나올 확률을 $w_i$라 하자. 이렇게 policy가 전부 다 다르더라도 여전히 기댓값의 선형성 때문에 다음과 같은 식으로 나타낼 수 있다:

역시나 $d_\pi$를 직접 최적화하지 못하지만, 또 기댓값의 선형성 때문에 다음과 같이 근사할 수 있다:

Constrained policy optimization을 하게 되면 아래와 같이 된다:

복잡해보이지만, 사실 알고리즘은 간단하다:

$\mathcal R$은 MC return으로 계산된다.