Study/Reinforcement Learning

RLHF 기본적인 정리

manfromearth1 2025. 12. 3. 22:26

Modern RLHF & Post-Training: A Comprehensive Guide

From InstructGPT to DeepSeek-R1 & Reasoning Models

1. 서론: Post-training 패러다임의 변화

1.1. 표면적 정렬 가설의 붕괴 (The Fall of LIMA)

과거 (2023, LIMA 가설): "모델의 지능은 Pre-training에서 완성되며, SFT(Fine-tuning)는 단지 말투(Style)와 형식만 맞추는 과정이다."
현재 (2024+): "틀렸다. Post-training은 모델의 행동(Behavior), 추론 능력(Reasoning), 안전성(Safety)을 결정짓는 핵심 과정이다."
증거: DeepSeek-R1이나 OpenAI o1은 강화학습(RL)을 통해 Pre-training 모델에는 없던 긴 사고 과정(Chain of Thought)을 창발(Emergence)시켰음.

1.2. 인간 선호(Preference)의 본질과 한계

목적: 수치화하기 어려운 인간의 가치(유머, 윤리, 창의성 등)를 모델에 주입.
이론적 배경 (VNM Utility): 인간의 선택(Choice)을 관찰함으로써 그 내면의 효용 함수(Utility Function)를 수치화할 수 있다는 경제학적 가정.
근본적 한계:
- Arrow’s Impossibility Theorem: 다수의 선호를 완벽하게 만족시키는 단 하나의 시스템은 수학적으로 불가능함.
- 데이터 편향 (Bias): 인간 라벨러의 한계로 인해 길이 편향(Verbosity Bias), 앞부분 편향(Prefix Bias), 아부(Sycophancy) 등이 데이터에 포함됨.

2. 핵심 알고리즘 (Core Algorithms)

2.1. PPO (Proximal Policy Optimization) - The Standard

유형: On-policy (현재 정책이 직접 생성한 데이터로 학습).
작동 원리: "선생님(Reward Model) 앞에서 직접 문제를 풀고 실시간 피드백을 받음."
핵심 구성 요소:
- Rollout: 모델이 환경과 상호작용하며 데이터를 생성. (미지의 영역 탐색 가능)
- KL Penalty: $$R_{total} = R_{model} - \beta \log(\frac{\pi}{\pi_{ref}})$$
  - 모델이 보상을 쫓다가 언어 능력을 상실하거나(Mode Collapse), 기존 지식을 망각하는 것을 방지.
- Baseline ($b$): 그래디언트의 분산(Variance)을 줄여 학습을 안정화함 (Unbiased).
실전 엔지니어링 (Implementation Details):
- Disable Dropout: KL Divergence 계산의 결정론적(Deterministic) 정확성을 위해 RM/RL 학습 시 드롭아웃을 0으로 설정.
- Non-EOS Penalty: 문장을 완결 짓지 못하면 큰 벌점(-10)을 부여하여 완결성 강제.

2.2. DPO (Direct Preference Optimization) - The Efficient

유형: Off-policy (이미 만들어진 정적 데이터셋으로 학습).
작동 원리: "참고서(Static Dataset)를 보며 독학."
수학적 혁신: 최적 정책($\pi^$)의 해석적 해(Analytic Solution)를 이용하여, *보상 함수($r$)를 정책 모델의 비율($\pi/\pi_{ref}$)로 치환.**
$$Loss_{DPO} = - \log \sigma \left( \beta \log \frac{\pi(y_w)}{\pi_{ref}(y_w)} - \beta \log \frac{\pi(y_l)}{\pi_{ref}(y_l)} \right)$$
장점: 별도의 Reward Model을 학습하고 메모리에 올릴 필요가 없음.
단점: 분포 변화(Distribution Shift)에 취약하며, 데이터셋에 없는 새로운 오류를 교정하기 어려움.

2.3. GRPO (Group Relative Policy Optimization) - The Reasoning Engine

출처: DeepSeek-R1의 핵심 엔진.
유형: On-policy + Critic-less.
특징:
- 질문 하나에 대해 그룹($G$개)의 답변을 생성.
- 별도의 Value Function(Critic) 없이, 그룹 내 평균 보상을 베이스라인으로 사용.
- $$Advantage_i = \frac{r_i - Mean(r)}{Std(r)}$$
의의: Critic 모델에 들어가는 거대한 메모리를 절약하여, 이를 긴 문맥(Context Length)과 사고 과정(Thinking Process) 학습에 투자함.

3. 보상 모델링 (Reward Modeling)

3.1. Bradley-Terry Model

두 대상($y_w, y_l$)의 점수 차이를 승리 확률로 변환하는 통계 모델.
$$P(y_w \succ y_l) = \sigma(r(y_w) - r(y_l))$$
점수 자체의 절대값은 의미가 없으며(Shift Invariance), 상대적 격차가 중요함.

3.2. ORM vs. PRM

구분	ORM (Outcome Reward Model)	PRM (Process Reward Model)
평가 대상	최종 결과 (Final Outcome)	추론 단계 (Step-by-step)
라벨링	쉬움 (정답지 비교)	어려움 (과정 전체 검수 필요)
장단점	기여도 할당 문제 발생 (잘한 과정도 싸잡아 비난)	오류 원인을 정확히 포착 (Math/Code에 필수)
최신 동향	MCTS와 결합하여 PRM이 탐색의 가이드 역할을 수행

3.3. 굿하트의 법칙 (Goodhart’s Law) & Reward Hacking

현상: 보상 모델은 불완전한 대리인(Proxy)이므로, 모델이 이를 과도하게 최적화하면 실제 품질은 떨어지는 현상.
해결: KL Penalty, PPO-ptx(Pre-training 데이터 믹스), Iterative Training.

4. 최신 트렌드: Reasoning Models (DeepSeek-R1 & o1)

4.1. RFT (Reinforcement Finetuning) & RLVR

RLVR (Verifiable Rewards): 주관적 선호(Preference)가 아닌, 검증 가능한 객관적 사실(Truth)을 보상으로 사용. (예: 컴파일러, 수학 정답).
효과: 모델이 정답이라는 보상을 얻기 위해 스스로 사고 과정(Chain of Thought)을 길게 늘리고 검증하는 행동을 창발함.

4.2. DeepSeek-R1 학습 파이프라인 (4 Stage)

Cold Start: R1-Zero(초기 모델)가 생성한 데이터 중 가독성이 좋은 것만 골라 SFT 수행. (형식/말투 교정)
Reasoning RL: RLVR을 사용하여 수학/코딩 능력을 수렴할 때까지 극한으로 학습. (지능 폭발)
Rejection Sampling (SFT): 일반 대화 능력 전이를 위해 Reasoning 데이터와 General 데이터를 믹스하여 재학습.
Mixed RL: 규칙 기반 보상(지능 유지) + 선호도 보상(안전성/사회화)을 결합하여 최종 조율.

4.3. System 2 Thinking (MCTS)

직관적인 생성(System 1)을 넘어, 답변 전에 트리 탐색(Tree Search)을 통해 시뮬레이션 수행.
난관: 토큰 단위 탐색은 경우의 수가 폭발함 $\rightarrow$ 문장/사고 단위(Thought-level) 탐색 및 Self-Evaluation 기법으로 발전 중.

5. 실전 최적화 기법 (Optimization & Efficiency)

5.1. Alignment Tax 해결 전략

원인: Alignment 과정에서 분포 이동(Distribution Shift)으로 인해 기존 지식을 망각하거나 과도하게 위축됨(False Refusal).
해결책:
- PPO-ptx: RL 과정에서 Pre-training 데이터를 함께 학습.
- Data Mixing: RL 단계에서도 고품질의 Reasoning(수학/코딩) 데이터를 지속적으로 주입.

5.2. 데이터 효율화 (Data Efficiency)

KTO (Kahneman-Tversky Optimization): 쌍(Pair) 데이터 없이, 단일 데이터의 Good/Bad($O/X$) 평가만으로 학습 가능 (전망 이론 기반).
SimPO / ORPO: Reference Model을 메모리에서 제거하고, Margin이나 Odds Ratio를 활용해 DPO보다 가볍고 빠르게 학습.

'Study > Reinforcement Learning' 카테고리의 다른 글

Policy Gradient 4: TRPO & PPO (0)	2025.11.22
Policy Gradient 3: Off-Policy (0)	2025.11.22
Policy Gradient 2 (0)	2025.11.21
Policy Gradient 1 - REINFORCE (0)	2025.11.21
Dynamic Programming 3 (0)	2025.11.10

현재글RLHF 기본적인 정리

manfromearth1 님의 블로그

manfromearth1 님의 블로그 입니다.

Adversarial Preference Learning for Robust LLM Alignment, kstreams, I-JEPA, RLHF, docker, Kafka, BitCoin, apo, mlflow,

Today :
Yesterday :

manfromearth1 님의 블로그

RLHF 기본적인 정리

Modern RLHF & Post-Training: A Comprehensive Guide

1. 서론: Post-training 패러다임의 변화

1.1. 표면적 정렬 가설의 붕괴 (The Fall of LIMA)

1.2. 인간 선호(Preference)의 본질과 한계

2. 핵심 알고리즘 (Core Algorithms)

2.1. PPO (Proximal Policy Optimization) - The Standard

2.2. DPO (Direct Preference Optimization) - The Efficient

2.3. GRPO (Group Relative Policy Optimization) - The Reasoning Engine

3. 보상 모델링 (Reward Modeling)

3.1. Bradley-Terry Model

3.2. ORM vs. PRM

3.3. 굿하트의 법칙 (Goodhart’s Law) & Reward Hacking

4. 최신 트렌드: Reasoning Models (DeepSeek-R1 & o1)

4.1. RFT (Reinforcement Finetuning) & RLVR

4.2. DeepSeek-R1 학습 파이프라인 (4 Stage)

4.3. System 2 Thinking (MCTS)

5. 실전 최적화 기법 (Optimization & Efficiency)

5.1. Alignment Tax 해결 전략

5.2. 데이터 효율화 (Data Efficiency)

'Study > Reinforcement Learning' 카테고리의 다른 글

'Study/Reinforcement Learning'의 다른글

티스토리툴바

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

RLHF 기본적인 정리

Modern RLHF & Post-Training: A Comprehensive Guide

1. 서론: Post-training 패러다임의 변화

1.1. 표면적 정렬 가설의 붕괴 (The Fall of LIMA)

1.2. 인간 선호(Preference)의 본질과 한계

2. 핵심 알고리즘 (Core Algorithms)

2.1. PPO (Proximal Policy Optimization) - The Standard

2.2. DPO (Direct Preference Optimization) - The Efficient

2.3. GRPO (Group Relative Policy Optimization) - The Reasoning Engine

3. 보상 모델링 (Reward Modeling)

3.1. Bradley-Terry Model

3.2. ORM vs. PRM

3.3. 굿하트의 법칙 (Goodhart’s Law) & Reward Hacking

4. 최신 트렌드: Reasoning Models (DeepSeek-R1 & o1)

4.1. RFT (Reinforcement Finetuning) & RLVR

4.2. DeepSeek-R1 학습 파이프라인 (4 Stage)

4.3. System 2 Thinking (MCTS)

5. 실전 최적화 기법 (Optimization & Efficiency)

5.1. Alignment Tax 해결 전략

5.2. 데이터 효율화 (Data Efficiency)

'Study > Reinforcement Learning' 카테고리의 다른 글

'Study/Reinforcement Learning'의 다른글

관련글

티스토리툴바