강화학습 논문을 읽을 때는 단순히 objective나 update rule만 따라가는 것으로는 부족하다. 특히 어떤 문제를 해결하려고 등장했는지, 다시 말해 motivation 을 이해하는 것이 중요하다. AWR(Advantage-Weighted Regression) 역시 마찬가지다. 이 논문은 단순히 새로운 actor-critic 변형을 제안하는 것이 아니라,좋은 행동 데이터가 이미 존재할 때, policy가 data distribution을 벗어나지 않는 선에서 얼마나 공격적으로 업데이트해야 하는가?라는 질문에서 출발한다. 기존의 강화학습 알고리즘들은 exploration을 통해 더 나은 행동을 찾는 데 강점을 가진다. 하지만 실제 환경에서는 무작정 새로운 행동을 시도하는 것이 위험하거나 비용이 클 ..