Modern RLHF & Post-Training: A Comprehensive GuideFrom InstructGPT to DeepSeek-R1 & Reasoning Models1. 서론: Post-training 패러다임의 변화1.1. 표면적 정렬 가설의 붕괴 (The Fall of LIMA)과거 (2023, LIMA 가설): "모델의 지능은 Pre-training에서 완성되며, SFT(Fine-tuning)는 단지 말투(Style)와 형식만 맞추는 과정이다."현재 (2024+): "틀렸다. Post-training은 모델의 행동(Behavior), 추론 능력(Reasoning), 안전성(Safety)을 결정짓는 핵심 과정이다."증거: DeepSeek-R1이나 OpenAI o1은 강화학습(RL)을 통..