논문 리뷰/RL

HER 논문 리뷰

manfromearth1 2025. 12. 11. 18:39

Hindsight Experience Replay

강화학습의 정의로 다시 돌아가보자. 강화학습은 sequential decision making에 대한 프레임워크로써, reward를 최대화하기 위해서 주어진 상태에서 어떠한 행동을 해야 하는지에 대해서 학습하는 방법론을 의미한다. 학습 주체는 기본적으로 어떠한 행동을 해야 하는지에 대해서 명시적인 지도를 받는 것이 아닌, 직접 경험함으로써 어떤 행동이 가장 보상을 최대화하는지 배워야 한다.

이를 위해서 agent는 탐험을 통해서 데이터들을 수집해야 하고, 이렇게 수집한 데이터를 바탕으로 어떤 행동이 최적의 행동인지 의사결정을 할 필요가 있다. 그러나 단순히 어떠한 상태를 방문하고 거기서 행동하는 것으로는 부족하다. 당연하게도 그냥 "방문함"으로는 어떠한 정보를 얻을 수 없으며, 방문을 통해 유의미한 결과 즉 "보상"을 얻어야만 의사결정에 관한 유의미한 정보가 생기기 때문이다.

그러나 보상이 굉장희 희소하다면 어떨까? 에이전트는 수만 번의 스텝을 내딛고 수천 개의 에피소드를 거치더라도, 목표를 달성하지 못해 보상으로 '0'만을 계속해서 받게 될 것이다. 강화학습의 핵심인 '보상'이라는 신호가 부재한 상황에서, 에이전트는 자신이 수행한 행동들이 목표에 다가가는 데 도움이 되었는지, 아니면 방해가 되었는지 전혀 판단할 수 없다. 이는 마치 칠흑 같은 어둠 속에서 지도도 없이 출구를 찾아 헤매는 것과 같다.

이 경우, 에이전트의 학습은 사실상 '무작위 탐색(Random Walk)' 수준에 머무르게 된다. 기존의 강화학습 알고리즘들은 보상을 받지 못하면 가치 함수를 업데이트할 수 없고, 가치 함수가 갱신되지 않으면 더 나은 정책으로 발전할 수도 없다. 결국, 우연히 기적적으로 목표에 도달하기 전까지는 어떠한 유의미한 학습도 일어나지 않는 'Cold Start' 문제에 직면하게 되는 것이다. 특히 로봇 제어와 같이 상태 공간이 방대하고 연속적인 환경에서는, 우연에 기대어 목표를 달성할 확률이 기하급수적으로 낮아지기 때문에 이 문제는 더욱 치명적이다.

이에 대해서 사람의 play를 보고 구조를 우선 배우는 방법 또는 reward shaping이 대안이 될 것이다. 그러나 사람이 직접 플레이한 데이터가 존재하지 않을 경우가 더 많으며 그러한 데이터를 얻는 것에 비용이 클 수도 있다는 문제점이 있고, reward shaping 방법은 "어떻게" 하느냐에 대한 universal한 방법이 존재하지 않는다.

여기서 우리는 근본적인 의문을 제기할 필요가 있다. "실패한 에피소드로는 아무런 학습을 할 수 없을까?" 당연하게도, 정답은 '아니다'이다.

인간의 학습 과정을 떠올려보자. 우리가 농구 골대에 슛을 던져 빗나갔다고 가정했을 때, 우리는 그것을 단순히 '실패'로만 치부하고 기억을 삭제하지 않는다. 대신 "골대보다 조금 오른쪽으로 갔네", "힘이 너무 강했네"라고 인식하며, 비록 골을 넣는 원래의 목표는 달성하지 못했지만 '내가 공을 어디로 보냈는지'에 대한 인과관계는 확실하게 학습한다.

즉, 원래의 의도된 목표 관점에서는 '실패'일지 몰라도, 에이전트가 실제로 도달한 상태를 기준으로 보면 그것은 '성공'한 수행이라고 재해석할 수 있다. 이러한 직관적인 아이디어에서 출발하여, 희소 보상 환경에서 버려지는 방대한 데이터를 귀중한 학습 자원으로 탈바꿈시키는 방법론이 바로 Hindsight Experience Replay (HER)이다.

사실 이 논문을 위해서 UVFA논문을 리뷰했다 ㅎㅎ. UVFA에 대한 간단한 recap을 해보자.

UVFA 논문 리뷰

Universal Value Function ApproximatorsPrologue전통적인 강화학습에서 상태 가치 함수(State Value Function) $V(s)$는 단 하나의 고정된 목표에 대한 가치를 의미한다. 만약 $V(s)$가 잘 학습된다면 우리는 환경 모델

manfromearth1.tistory.com

상태($s$)와 목표($g$)를 입력단에서 단순히 결합(Concatenation)하여 처리하는 기존 방식과 달리, UVFA는 상태와 목표를 각각 독립적인 저차원 임베딩 공간으로 매핑한 후, 두 임베딩 벡터의 내적(Dot Product)을 통해 가치 함수 $V(s,g)$를 근사하는 구조를 취한다.

이렇게 내적 기반의 분리된 구조를 취하는 핵심적인 이유는, 상태와 목표가 이루는 거대한 가치 함수의 형상(Landscape)을 효율적으로 근사하기 위함이다.

일반적인 MLP(다층 퍼셉트론)가 $s$와 $g$의 모든 복잡한 비선형 관계를 맨땅에서부터 학습해야 하는 것과 달리, UVFA는 가치 함수가 '상태 특징'과 '목표 특징'의 상호작용으로 분해될 수 있다는 강력한 구조적 가정(Inductive Bias)을 도입한다.

즉, $V(s,g) \approx \phi(s)^T \cdot \psi(g)$라는 식을 통해, 고차원의 복잡한 Value Landscape를 두 개의 저차원 잠재 공간(Latent Space)의 기하학적 관계(유사도)로 표현하려 하는 것이다. 이를 통해 모델은 관측하지 못한 $(s, g)$ 조합에 대해서도, 임베딩 공간상의 거리를 기반으로 매끄러운(Smooth) 가치 형상을 추론하여 우수한 일반화 성능을 기대할 수 있다.

그러나 UVFA도 문제가 있다. UVFA와 같은 구조가 유의미한 임베딩 공간을 학습하기 위해서는, 상태($s$)와 목표($g$)가 일치하여 높은 보상을 받는 '성공 데이터'가 필수적이다. 그러나 희소 보상 환경에서는 이러한 성공 경험 자체가 전무하기 때문에, 아무리 훌륭한 신경망 구조를 가지고 있어도 학습을 시작할 연료가 없는 셈이다. 그래서 Hindsight Experience Replay (HER)은 이러한 문제를 해결하기 위해, 인간의 '사후 가정(Hindsight)' 능력을 모방한 데이터 증강(Data Augmentation) 기법을 도입한다. 그 핵심은 "목표를 고정불변의 것이 아닌, 사후에 변경 가능한 것"으로 바라보는 관점의 전환에 있다.

Mechanism

1. 에피소드 수행 및 저장:

에이전트는 원래의 목표 $g$를 달성하기 위해 행동하지만, 대부분의 초기 학습 단계에서는 실패하고 엉뚱한 상태 $s_T$에 도달하며 에피소드가 끝난다. 일반적인 강화학습이라면 이 경험은 '보상 0'인 실패 데이터로 저장된다.

2. 목표 재설정(Goal Re-labeling):

HER은 여기서 기지를 발휘한다. 에이전트가 비록 원래 목표 $g$에는 도달하지 못했지만, **"만약 애초에 목표가 $s_T$였다면 어땠을까?"**라고 가정해 보는 것이다. 이 가정을 적용하는 순간, 실패했던 에피소드 내의 궤적(Trajectory)은 $s_T$를 목표로 하는 '완벽한 성공 에피소드'로 탈바꿈한다.

3. 학습 데이터의 재구성:

따라서 리플레이 버퍼(Replay Buffer)에는 원래의 목표 $g$에 대한 (실패한) 경험뿐만 아니라, 가상의 목표 $g'(=s_T)$에 대해 (성공한) 경험이 함께 저장된다.

이 과정을 통해 에이전트는 희소한 보상 신호에 의존하지 않고도, 자신의 행동이 환경에 미치는 물리적 인과관계(Dynamics)를 풍부한 보상 신호(Dense Reward)와 함께 학습할 수 있게 된다. 결과적으로 HER은 "목표를 달성하는 방법"을 배우기 전에, "자신이 도달한 곳을 제어하는 방법"을 먼저 학습시킴으로써, UVFA와 같은 Multi-Goal 구조가 올바른 임베딩 공간을 형성하도록 유도하는 결정적인 역할을 수행한다.

Experiments

연구자들은 다음과 같은 세팅에서, 희소 보상을 가정하고 실험을 진행했다. 결과를 확인해보자.

여기서 version~이 있는데, 사실 method에서 하나(future)만 설명한거기는 하다. 다른 것도 설명하고자 한다.

Final은 한 에피소드에서 최종 지점을 목표라고 가정하는 것을 의미한다. 여기서 future가 final보다 더 좋은 이유는 최종 지점만을 목표로 가지는 것이 아니라, 그 에피소드에서 있었던 지점을 '목표'라고 가정하고 업데이트하는 것이기 때문이다. 인과관계가 존재하기 떄문에 합리적이라고 볼 수 있는 것이다. Episode는 future의 일반화된 버전이다. Future는 미래 상태를 목표로 가정하고 가정하지만, episode는 한 플레이의 아무 상태를 목표라고 가정하기 때문에 인과관계가 정확하지 않을 수 있다. Random의 경우에는 사실상 sparse reward 그대로의 문제와 사실상 비슷한 경우가 존재한다

가장 먼저 꼽아야 할 장점은 뭐니 뭐니 해도 희소 보상(Sparse Reward) 문제를 개선했다는 점이다. HER은 실패한 경험조차도 "원래 의도했던 곳은 아니지만, 도착한 곳을 목표라고 치자"라고 재해석함으로써, 버려지는 데이터 없이 효율적으로 학습하게 된다.

또한, 앞서 강조했던 'Future 전략' 덕분에 자연스러운 커리큘럼 러닝이 가능하다. 초반에는 우연히 도달한 가까운 곳을 목표로 삼아 배우고, 실력이 늘수록 점점 더 먼 곳을 목표로 학습하게 되어 누가 가르쳐주지 않아도 에이전트 스스로 쉬운 단계에서 어려운 단계로 넘어가는 학습 곡선을 그리게 된다. 여기에 UVFA의 구조적 특성이 더해져, 훈련 때 보지 못했던 새로운 목표가 주어져도 임베딩 공간의 유사성을 통해 유연하게 대처할 수 있다는 것도 큰 강점이다.

물론 치명적인 제약 사항이 몇 가지 존재하는데, 가장 큰 제약은 반드시 Off-Policy 알고리즘을 써야 한다는 점이다. 과거의 데이터를 꺼내서 목표를 조작(Relabeling)하는 방식이기 때문에, 실시간 상호작용을 중시하는 PPO 같은 On-Policy 알고리즘에는 적용하기가 매우 까다롭습니다. 주로 DQN이나 SAC, DDPG 같은 알고리즘을 기반으로 해야 한다.

더불어, 모든 강화학습 문제에 쓸 수 있는 것도 아닌데, 이 방식이 작동하려면 "우리가 도달하는 상태(State) 그 자체를 목표(Goal)로 정의할 수 있는 환경"이어야 하기 때문이다. 예를 들어 로봇 팔 제어나 미로 찾기 같은 문제에는 적합하지만, 단순히 점수를 많이 따야 하는 아타리 게임이나 서바이벌 게임 같은 곳에는 적용하기 어렵다. 현재 상태를 목표 포맷으로 변환할 수 있는 명확한 매핑 함수가 필요하기 때문이다.

이만 글을 마치도록 하겠다!!

'논문 리뷰 > RL' 카테고리의 다른 글

FEDORA 논문 리뷰 (0)	2026.01.13
PlaNet 논문 리뷰 (0)	2025.12.17
UVFA 논문 리뷰 (0)	2025.12.10
PER 논문 리뷰 (0)	2025.12.05
Exploration by Random Network Distillation 논문 리뷰 (0)	2025.12.02

현재글HER 논문 리뷰

manfromearth1 님의 블로그

manfromearth1 님의 블로그 입니다.

Adversarial Preference Learning for Robust LLM Alignment, RLHF, docker, Kafka, BitCoin, I-JEPA, kstreams, apo, mlflow,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

manfromearth1 님의 블로그

HER 논문 리뷰