Modern RLHF & Post-Training: A Comprehensive Guide
From InstructGPT to DeepSeek-R1 & Reasoning Models
1. 서론: Post-training 패러다임의 변화
1.1. 표면적 정렬 가설의 붕괴 (The Fall of LIMA)
- 과거 (2023, LIMA 가설): "모델의 지능은 Pre-training에서 완성되며, SFT(Fine-tuning)는 단지 말투(Style)와 형식만 맞추는 과정이다."
- 현재 (2024+): "틀렸다. Post-training은 모델의 행동(Behavior), 추론 능력(Reasoning), 안전성(Safety)을 결정짓는 핵심 과정이다."
- 증거: DeepSeek-R1이나 OpenAI o1은 강화학습(RL)을 통해 Pre-training 모델에는 없던 긴 사고 과정(Chain of Thought)을 창발(Emergence)시켰음.
1.2. 인간 선호(Preference)의 본질과 한계
- 목적: 수치화하기 어려운 인간의 가치(유머, 윤리, 창의성 등)를 모델에 주입.
- 이론적 배경 (VNM Utility): 인간의 선택(Choice)을 관찰함으로써 그 내면의 효용 함수(Utility Function)를 수치화할 수 있다는 경제학적 가정.
- 근본적 한계:
- Arrow’s Impossibility Theorem: 다수의 선호를 완벽하게 만족시키는 단 하나의 시스템은 수학적으로 불가능함.
- 데이터 편향 (Bias): 인간 라벨러의 한계로 인해 길이 편향(Verbosity Bias), 앞부분 편향(Prefix Bias), 아부(Sycophancy) 등이 데이터에 포함됨.
2. 핵심 알고리즘 (Core Algorithms)
2.1. PPO (Proximal Policy Optimization) - The Standard
- 유형: On-policy (현재 정책이 직접 생성한 데이터로 학습).
- 작동 원리: "선생님(Reward Model) 앞에서 직접 문제를 풀고 실시간 피드백을 받음."
- 핵심 구성 요소:
- Rollout: 모델이 환경과 상호작용하며 데이터를 생성. (미지의 영역 탐색 가능)
- KL Penalty: $$R_{total} = R_{model} - \beta \log(\frac{\pi}{\pi_{ref}})$$
- 모델이 보상을 쫓다가 언어 능력을 상실하거나(Mode Collapse), 기존 지식을 망각하는 것을 방지.
- Baseline ($b$): 그래디언트의 분산(Variance)을 줄여 학습을 안정화함 (Unbiased).
- 실전 엔지니어링 (Implementation Details):
- Disable Dropout: KL Divergence 계산의 결정론적(Deterministic) 정확성을 위해 RM/RL 학습 시 드롭아웃을 0으로 설정.
- Non-EOS Penalty: 문장을 완결 짓지 못하면 큰 벌점(-10)을 부여하여 완결성 강제.
2.2. DPO (Direct Preference Optimization) - The Efficient
- 유형: Off-policy (이미 만들어진 정적 데이터셋으로 학습).
- 작동 원리: "참고서(Static Dataset)를 보며 독학."
- 수학적 혁신: 최적 정책($\pi^$)의 해석적 해(Analytic Solution)를 이용하여, *보상 함수($r$)를 정책 모델의 비율($\pi/\pi_{ref}$)로 치환.**
$$Loss_{DPO} = - \log \sigma \left( \beta \log \frac{\pi(y_w)}{\pi_{ref}(y_w)} - \beta \log \frac{\pi(y_l)}{\pi_{ref}(y_l)} \right)$$
- 장점: 별도의 Reward Model을 학습하고 메모리에 올릴 필요가 없음.
- 단점: 분포 변화(Distribution Shift)에 취약하며, 데이터셋에 없는 새로운 오류를 교정하기 어려움.
2.3. GRPO (Group Relative Policy Optimization) - The Reasoning Engine
- 출처: DeepSeek-R1의 핵심 엔진.
- 유형: On-policy + Critic-less.
- 특징:
- 질문 하나에 대해 그룹($G$개)의 답변을 생성.
- 별도의 Value Function(Critic) 없이, 그룹 내 평균 보상을 베이스라인으로 사용.
- $$Advantage_i = \frac{r_i - Mean(r)}{Std(r)}$$
- 의의: Critic 모델에 들어가는 거대한 메모리를 절약하여, 이를 긴 문맥(Context Length)과 사고 과정(Thinking Process) 학습에 투자함.
3. 보상 모델링 (Reward Modeling)
3.1. Bradley-Terry Model
- 두 대상($y_w, y_l$)의 점수 차이를 승리 확률로 변환하는 통계 모델.
- $$P(y_w \succ y_l) = \sigma(r(y_w) - r(y_l))$$
- 점수 자체의 절대값은 의미가 없으며(Shift Invariance), 상대적 격차가 중요함.
3.2. ORM vs. PRM
| 구분 |
ORM (Outcome Reward Model) |
PRM (Process Reward Model) |
| 평가 대상 |
최종 결과 (Final Outcome) |
추론 단계 (Step-by-step) |
| 라벨링 |
쉬움 (정답지 비교) |
어려움 (과정 전체 검수 필요) |
| 장단점 |
기여도 할당 문제 발생 (잘한 과정도 싸잡아 비난) |
오류 원인을 정확히 포착 (Math/Code에 필수) |
| 최신 동향 |
MCTS와 결합하여 PRM이 탐색의 가이드 역할을 수행 |
|
3.3. 굿하트의 법칙 (Goodhart’s Law) & Reward Hacking
- 현상: 보상 모델은 불완전한 대리인(Proxy)이므로, 모델이 이를 과도하게 최적화하면 실제 품질은 떨어지는 현상.
- 해결: KL Penalty, PPO-ptx(Pre-training 데이터 믹스), Iterative Training.
4. 최신 트렌드: Reasoning Models (DeepSeek-R1 & o1)
4.1. RFT (Reinforcement Finetuning) & RLVR
- RLVR (Verifiable Rewards): 주관적 선호(Preference)가 아닌, 검증 가능한 객관적 사실(Truth)을 보상으로 사용. (예: 컴파일러, 수학 정답).
- 효과: 모델이 정답이라는 보상을 얻기 위해 스스로 사고 과정(Chain of Thought)을 길게 늘리고 검증하는 행동을 창발함.
4.2. DeepSeek-R1 학습 파이프라인 (4 Stage)
- Cold Start:
R1-Zero(초기 모델)가 생성한 데이터 중 가독성이 좋은 것만 골라 SFT 수행. (형식/말투 교정)
- Reasoning RL: RLVR을 사용하여 수학/코딩 능력을 수렴할 때까지 극한으로 학습. (지능 폭발)
- Rejection Sampling (SFT): 일반 대화 능력 전이를 위해 Reasoning 데이터와 General 데이터를 믹스하여 재학습.
- Mixed RL: 규칙 기반 보상(지능 유지) + 선호도 보상(안전성/사회화)을 결합하여 최종 조율.
4.3. System 2 Thinking (MCTS)
- 직관적인 생성(System 1)을 넘어, 답변 전에 트리 탐색(Tree Search)을 통해 시뮬레이션 수행.
- 난관: 토큰 단위 탐색은 경우의 수가 폭발함 $\rightarrow$ 문장/사고 단위(Thought-level) 탐색 및 Self-Evaluation 기법으로 발전 중.
5. 실전 최적화 기법 (Optimization & Efficiency)
5.1. Alignment Tax 해결 전략
- 원인: Alignment 과정에서 분포 이동(Distribution Shift)으로 인해 기존 지식을 망각하거나 과도하게 위축됨(False Refusal).
- 해결책:
- PPO-ptx: RL 과정에서 Pre-training 데이터를 함께 학습.
- Data Mixing: RL 단계에서도 고품질의 Reasoning(수학/코딩) 데이터를 지속적으로 주입.
5.2. 데이터 효율화 (Data Efficiency)
- KTO (Kahneman-Tversky Optimization): 쌍(Pair) 데이터 없이, 단일 데이터의 Good/Bad($O/X$) 평가만으로 학습 가능 (전망 이론 기반).
- SimPO / ORPO: Reference Model을 메모리에서 제거하고, Margin이나 Odds Ratio를 활용해 DPO보다 가볍고 빠르게 학습.