논문 리뷰/NLP

InstructGPT 논문 리뷰

manfromearth1 2025. 8. 5. 13:33

Training language models to follow instructions with human feedback


Summary & Key Contribution

본 논문은 언어모델을 인간의 의도에 맞게 정렬(alignment) 시키기 위한 확장 가능한 방법으로, 인간의 피드백을 활용한 fine-tuning 기법을 제안한다.

이러한 접근 방식은 RLHF(Reinforcement Learning with Human Feedback)로 불리며, 사람 라벨러의 선호 데이터를 수집하여 이를 바탕으로 보상 모델(RM) 을 학습하고, 강화학습 방법론 중 하나인 PPO(Proximal Policy Optimization) 으로 사전학습된 모델을 최적화시키는 것이다.

주요 기여는 다음과 같다:

  • 사용자에게 더 도움 되는 응답, 진실된 출력, 안전한 결과를 생성하는 데 효과적인 것은 모델 크기를 단순히 키우는 것이 아니라 RLHF를 통한 방법론을 사용하는 것임을 밝혔다.
  • 인간 선호를 통해서 fine-tune 된 InstructGPT 모델이 보지 못한 프롬프트나, 라벨에 대해서도 일반화 성능이 뛰어남을 보여주었다.
  • 정렬된 모델은 명시적으로 학습하지 않은 과제에 대해서도 더 잘 지시를 따르는 경향을 보였다.
    해당 논문은 왜 ChatGPT가 LLM 시장의 일인자가 되었는지에 대해 알려주는 milestone 같은 논문이다.

Preliminary

Supervised Fine Tuning

Supervised Fine Tuning은 Pretrain 된 언어모델에 대해 사람이 작성한 시연 데이터를 사용하여 지도학습을 수행하는 방식이다.

즉 프롬프트에 대해서 사람이 의도한 바람직한 응답을 직접 작성하고, 이를 모델에게 이렇게 응답하는 것이 좋다고 알려주며 파인튜닝하는 것이다. 그러나 이러한 방법은 다음과 같은 한계를 지니고 있었다:

  • 지도학습은 특정 응답 예시에만 의존하기 때문에, 응답이 가능한 여러 방식 중 하나만 학습하게 되어 정답의 다양성을 반영하지 못한다.
  • 지도학습을 위한 데이터를 생성하는 것에 많은 비용과 시간이 든다.
  • SFT는 정답/오답의 기준만 학습하며, 응답 품질에 대한 선호도 정보는 반영하지 못한다.
  • 사용자의 지시를 따르지만, 표면적인 패턴을 따라가는 것에 그쳐 덜 정렬된 모습을 보인다.

PPO

Proximal Policy Optimization은 RLHF에서 사용되는 대표적인 정책 최적화 알고리즘이다. 정책(policy) 모델이 응답한 값들에 대하여 보상(Reward) 모델이 각 응답에 대한 보상을 예측하고,

높은 보상을 준 응답의 확률은 높이고, 낮은 보상을 준 응답의 확률은 낮추되 그 변화가 급격하지 않도록 제한(KL Divergence, Clip 등)하는 방식이다.

이러한 방법은 기존의 정책 기반 강화학습 알고리즘(TRPO, REINFORCE)에 비해 안정적이며 계산도 단순하다.


Methodology

Reward Modeling

Reward Model은 동일한 입력(prompt)에 대해 두 개의 응답이 주어졌을 때,
사람이 어떤 응답을 더 선호했는지를 바탕으로 두 응답 간의 상대적인 보상 차이를 학습하는 모델이다.
즉, "이 응답이 더 낫다"는 이진 선호(pairwise preference) 정보를 입력으로 받아,
보상 점수를 연속적인 스칼라 값으로 추정할 수 있도록 학습된다.

보상 모델로 175B 모델을 두지 않고 6B 모델로 사용한 이유는, 175B 모델의 학습 불안정성과 높은 비용 때문이다.

선호되는 응답에 대한 보상 점수가 그렇지 않은 응답에 대한 보상 점수보다 커질수록 Loss는 작아짐을 확인할 수 있다. 이렇게 훈련된 RM은 PPO 단계에서 Policy model의 응답을 평가하는 reward function으로 사용된다.

Reinforcement Learning (RL)

우선 위와 같은 목적 함수 $\phi$를 참고하자. 해당 목적 함수를 최대화시키기 위해서는, 학습된 RL policy 함수가 얻는 보상을 최대화해야 한다. 그러나 단순히 보상이 최대화되도록 policy의 distribution이 급격히 바뀌어 모델이 무너지는 것을 막기 위해 KL divergence term을 제약 조건으로 두어 기존 모델에 크게 벗어나지 않는 선에서 목적 함수가 최대화되도록 훈련된다.

아래의 Term이 추가된 것은, PPO-ptx로 실제 InstructGPT의 목적 함수 구조이다. 원래 pretraining에서 사용된 언어 모델의 성능을 유지하기 위함이다.


Results

PPO를 통해 훈련된 언어모델이 Pretrain된 모델, SFT를 통해 정렬된 모델보다 더욱 선호에 맞는 응답을 하여 alignment가 잘 이루어졌음을 확인할 수 있다.

본 논문은 이렇게 훈련된 InstructGPT 모델이 기존에 비해서 어떠한 성과가 있었는지 설명한다:

  • InstructGPT는 GPT-3 모델에 비해서 더욱 진실성 있는 응답을 생성한다
  • InstructGPT는 유해한 답변을 더욱 생성하지 않게 되었지만, 그렇다고 특정한 편한이 생기지 않았다
  • PPO-ptx 같은 구조는 성능 저하를 최소화 모델을 정렬시킬 수 있어 RLHF로 LM을 정렬시키는 것에 관한 문제점(alignment tax)를 최소화한다

Conclusion

Significance

본 논문은 우선 RLHF + PPO-ptx의 조합이 LLM을 사용자의 의도에 맞게 실질적으로 정렬할 수 있음을 대규모 서비스 환경에서 입증하였으며, 동일한 패러미터 수 대비 더 큰 "진실성, 안전성"을 달성했다는 점이 산업 및 학술적으로 의미가 크다.

또한 정렬 과정에서 나타나는 Alignment tax로 인한 언어모델 성능 저하를 최소화하였고, 실제로 감독받지 않은(훈련받지 않은) 영역에서도 사용자의 의도를 따르는 '지시 따르기' 성능이 향상되었음을 확인할 수 있다.

또한 이러한 강화학습 구조를 만듦에 있어서 6B RM을 사용했다는 것은, 대규모 사전학습 비용 대비 작은 투자로 모델의 정렬 품질을 높일 수 있음을 시사한다.

Limitations

그러나 이러한 방법은 라벨러가 선호하는 데이터의 편향에 빠질 수 있기 때문에, 보편적 인간의 선호를 완전히 대변하지는 못한다. 또한 진실성, 안전성 등의 지표 개선에도 여전히 hallucination, prompt injection 등의 문제가 여전히 존재한다.

마지막으로, Reward Model은 상대적 우열을 바탕으로 보상 체계를 학습하기 때문에, 완전성이 부족하며 또한 Reward Model 자체를 설계하는 것도 어려운 과제이다.

이후 등장한 DPO(Direct Preference Optimization) 는 RM 없이도 선호 학습을 직접 수행하는 대안으로 주목받고 있다. 차후 연구에서는 RM-less 정렬 기법과의 비교 및 통합 가능성을 살펴볼 필요가 있다.

'논문 리뷰 > NLP' 카테고리의 다른 글

DPO 논문 리뷰  (3) 2025.08.12
AlphaEdit 논문 리뷰  (3) 2025.08.09
Orca 2 논문 리뷰  (3) 2025.08.08
Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo 논문 리뷰  (2) 2025.08.07
SimCSE 논문 리뷰  (1) 2025.08.01