Study/Reinforcement Learning

RLHF 기본적인 정리

manfromearth1 2025. 12. 3. 22:26

Modern RLHF & Post-Training: A Comprehensive Guide

From InstructGPT to DeepSeek-R1 & Reasoning Models


1. 서론: Post-training 패러다임의 변화

1.1. 표면적 정렬 가설의 붕괴 (The Fall of LIMA)

  • 과거 (2023, LIMA 가설): "모델의 지능은 Pre-training에서 완성되며, SFT(Fine-tuning)는 단지 말투(Style)와 형식만 맞추는 과정이다."
  • 현재 (2024+): "틀렸다. Post-training은 모델의 행동(Behavior), 추론 능력(Reasoning), 안전성(Safety)을 결정짓는 핵심 과정이다."
  • 증거: DeepSeek-R1이나 OpenAI o1은 강화학습(RL)을 통해 Pre-training 모델에는 없던 긴 사고 과정(Chain of Thought)을 창발(Emergence)시켰음.

1.2. 인간 선호(Preference)의 본질과 한계

  • 목적: 수치화하기 어려운 인간의 가치(유머, 윤리, 창의성 등)를 모델에 주입.
  • 이론적 배경 (VNM Utility): 인간의 선택(Choice)을 관찰함으로써 그 내면의 효용 함수(Utility Function)를 수치화할 수 있다는 경제학적 가정.
  • 근본적 한계:
    • Arrow’s Impossibility Theorem: 다수의 선호를 완벽하게 만족시키는 단 하나의 시스템은 수학적으로 불가능함.
    • 데이터 편향 (Bias): 인간 라벨러의 한계로 인해 길이 편향(Verbosity Bias), 앞부분 편향(Prefix Bias), 아부(Sycophancy) 등이 데이터에 포함됨.

2. 핵심 알고리즘 (Core Algorithms)

2.1. PPO (Proximal Policy Optimization) - The Standard

  • 유형: On-policy (현재 정책이 직접 생성한 데이터로 학습).
  • 작동 원리: "선생님(Reward Model) 앞에서 직접 문제를 풀고 실시간 피드백을 받음."
  • 핵심 구성 요소:
    • Rollout: 모델이 환경과 상호작용하며 데이터를 생성. (미지의 영역 탐색 가능)
    • KL Penalty: $$R_{total} = R_{model} - \beta \log(\frac{\pi}{\pi_{ref}})$$
      • 모델이 보상을 쫓다가 언어 능력을 상실하거나(Mode Collapse), 기존 지식을 망각하는 것을 방지.
    • Baseline ($b$): 그래디언트의 분산(Variance)을 줄여 학습을 안정화함 (Unbiased).
  • 실전 엔지니어링 (Implementation Details):
    • Disable Dropout: KL Divergence 계산의 결정론적(Deterministic) 정확성을 위해 RM/RL 학습 시 드롭아웃을 0으로 설정.
    • Non-EOS Penalty: 문장을 완결 짓지 못하면 큰 벌점(-10)을 부여하여 완결성 강제.

2.2. DPO (Direct Preference Optimization) - The Efficient

  • 유형: Off-policy (이미 만들어진 정적 데이터셋으로 학습).
  • 작동 원리: "참고서(Static Dataset)를 보며 독학."
  • 수학적 혁신: 최적 정책($\pi^$)의 해석적 해(Analytic Solution)를 이용하여, *보상 함수($r$)를 정책 모델의 비율($\pi/\pi_{ref}$)로 치환.**
    $$Loss_{DPO} = - \log \sigma \left( \beta \log \frac{\pi(y_w)}{\pi_{ref}(y_w)} - \beta \log \frac{\pi(y_l)}{\pi_{ref}(y_l)} \right)$$
  • 장점: 별도의 Reward Model을 학습하고 메모리에 올릴 필요가 없음.
  • 단점: 분포 변화(Distribution Shift)에 취약하며, 데이터셋에 없는 새로운 오류를 교정하기 어려움.

2.3. GRPO (Group Relative Policy Optimization) - The Reasoning Engine

  • 출처: DeepSeek-R1의 핵심 엔진.
  • 유형: On-policy + Critic-less.
  • 특징:
    • 질문 하나에 대해 그룹($G$개)의 답변을 생성.
    • 별도의 Value Function(Critic) 없이, 그룹 내 평균 보상을 베이스라인으로 사용.
    • $$Advantage_i = \frac{r_i - Mean(r)}{Std(r)}$$
  • 의의: Critic 모델에 들어가는 거대한 메모리를 절약하여, 이를 긴 문맥(Context Length)과 사고 과정(Thinking Process) 학습에 투자함.

3. 보상 모델링 (Reward Modeling)

3.1. Bradley-Terry Model

  • 두 대상($y_w, y_l$)의 점수 차이를 승리 확률로 변환하는 통계 모델.
  • $$P(y_w \succ y_l) = \sigma(r(y_w) - r(y_l))$$
  • 점수 자체의 절대값은 의미가 없으며(Shift Invariance), 상대적 격차가 중요함.

3.2. ORM vs. PRM

구분 ORM (Outcome Reward Model) PRM (Process Reward Model)
평가 대상 최종 결과 (Final Outcome) 추론 단계 (Step-by-step)
라벨링 쉬움 (정답지 비교) 어려움 (과정 전체 검수 필요)
장단점 기여도 할당 문제 발생 (잘한 과정도 싸잡아 비난) 오류 원인을 정확히 포착 (Math/Code에 필수)
최신 동향 MCTS와 결합하여 PRM이 탐색의 가이드 역할을 수행

3.3. 굿하트의 법칙 (Goodhart’s Law) & Reward Hacking

  • 현상: 보상 모델은 불완전한 대리인(Proxy)이므로, 모델이 이를 과도하게 최적화하면 실제 품질은 떨어지는 현상.
  • 해결: KL Penalty, PPO-ptx(Pre-training 데이터 믹스), Iterative Training.

4. 최신 트렌드: Reasoning Models (DeepSeek-R1 & o1)

4.1. RFT (Reinforcement Finetuning) & RLVR

  • RLVR (Verifiable Rewards): 주관적 선호(Preference)가 아닌, 검증 가능한 객관적 사실(Truth)을 보상으로 사용. (예: 컴파일러, 수학 정답).
  • 효과: 모델이 정답이라는 보상을 얻기 위해 스스로 사고 과정(Chain of Thought)을 길게 늘리고 검증하는 행동을 창발함.

4.2. DeepSeek-R1 학습 파이프라인 (4 Stage)

  1. Cold Start: R1-Zero(초기 모델)가 생성한 데이터 중 가독성이 좋은 것만 골라 SFT 수행. (형식/말투 교정)
  2. Reasoning RL: RLVR을 사용하여 수학/코딩 능력을 수렴할 때까지 극한으로 학습. (지능 폭발)
  3. Rejection Sampling (SFT): 일반 대화 능력 전이를 위해 Reasoning 데이터와 General 데이터를 믹스하여 재학습.
  4. Mixed RL: 규칙 기반 보상(지능 유지) + 선호도 보상(안전성/사회화)을 결합하여 최종 조율.

4.3. System 2 Thinking (MCTS)

  • 직관적인 생성(System 1)을 넘어, 답변 전에 트리 탐색(Tree Search)을 통해 시뮬레이션 수행.
  • 난관: 토큰 단위 탐색은 경우의 수가 폭발함 $\rightarrow$ 문장/사고 단위(Thought-level) 탐색Self-Evaluation 기법으로 발전 중.

5. 실전 최적화 기법 (Optimization & Efficiency)

5.1. Alignment Tax 해결 전략

  • 원인: Alignment 과정에서 분포 이동(Distribution Shift)으로 인해 기존 지식을 망각하거나 과도하게 위축됨(False Refusal).
  • 해결책:
    • PPO-ptx: RL 과정에서 Pre-training 데이터를 함께 학습.
    • Data Mixing: RL 단계에서도 고품질의 Reasoning(수학/코딩) 데이터를 지속적으로 주입.

5.2. 데이터 효율화 (Data Efficiency)

  • KTO (Kahneman-Tversky Optimization): 쌍(Pair) 데이터 없이, 단일 데이터의 Good/Bad($O/X$) 평가만으로 학습 가능 (전망 이론 기반).
  • SimPO / ORPO: Reference Model을 메모리에서 제거하고, Margin이나 Odds Ratio를 활용해 DPO보다 가볍고 빠르게 학습.

'Study > Reinforcement Learning' 카테고리의 다른 글

Policy Gradient 4: TRPO & PPO  (0) 2025.11.22
Policy Gradient 3: Off-Policy  (0) 2025.11.22
Policy Gradient 2  (0) 2025.11.21
Policy Gradient 1 - REINFORCE  (0) 2025.11.21
Dynamic Programming 3  (0) 2025.11.10