Adversarial Preference Learning for Robust LLM Alignment
Summary
본 논문은 기존 RLHF(Reinforcement Learning from Human Feedback)은 (1) 인간 주석 비용과 비효율성, (2) 무궁무진한 적대적 공격(adversarial attacks), (3) 보상 해킹(reward hacking)과 피드백 편향 위험으로 인해 여전히 LLM이 jailbreak와 adversarial prompt에 취약하다는 것을 지적하며, 공격자/방어자 기반 DPO 반복 학습을 통해 공진화(co-evolve)하는 프레임워크를 제안한다.
이러한 공격자/방어자 기반 DPO 반복 학습인 APL(Adversarial Preference Learning)은 자동 주석 및 평가로 학습이 가능하며 안정성을 강화하면서도 성능 손실을 최소화하는 강점을 보여준다.

Perliminary
Adversarial Training via Minimax Optimization
다음과 같은 식을 확인하자.

$T(x)$는 $x \in X$에서 가능한 perturbation의 집합을 의미한다. 위의 식은 $\theta$로 파라미터화 되어있는 모델 $f$에 input로 $x + \delta$을 가하여 Loss를 최대화하는 $\delta \in T(x)$를 찾으면서, 그러한 perturbation 공격을 받으면서도 모델의 loss를 최소화할 수 있는 $\theta$에 대해 학습되는 식이다.
RLHF + DPO
Reinforcement Learing from Human Feedback(RLHF)는 pair output $y_1$과 $y_2$에 대한 사람의 이진 선호를 연속 신호로 바꾸어 policy model $\pi$에 학습을 하는 방법의 통칭을 의미한다. 보통 이진 신호 → 연속 신호를 바꾸는 방법으로 reward model을 활용하는 방법이 있는데, 다음과 같은 식으로 policy 모델의 learning objective를 최대화할 수 있다.

여기에서 reward model은 사람의 이진 선호를 연속 신호로 매핑하도록 학습하여, 응답에 대한 선호를 연속 신호로 나타낼 수 있다. 정책 모델 $\pi_\theta$는 이 보상을 최대화하는 방향으로 학습되며, 또한 KL divergence로 constraint term을 두어 적합하고자 하는 $\pi_\theta$가 reference model과 크게 벗어나지 않도록 유도한다.
다만 이 방법에서 reward model $r(x,y)$를 만드는 것이 비용 및 난이도 측면에서 문제가 발생하는데, 보상 모델을 거치지 않고 이진 선호를 직접적으로 policy model의 최적화에 반영할 수 있다. 이를 Direct Preference Optimization(DPO)라 한다.

이렇게 선호/비선호 데이터 간의 likelihood ratio를 최대화하는 방향으로 학습된다.
Adversarial Preference Learning
Adversarial Preference Learning은 다음과 같은 방향으로 진행된다:

- Attacker model인 $\pi_{att}$가 $x_1, ..., x_K$의 adversarial 샘플을 생성
- Vulnerability score(혹은 Effectiveness score라 함) $R$을 K개 샘플에 대해서 계산, 가장 score가 높은 $x_w'$과 가장 score가 낮은 $x_l'$ 생성
- 이 pair adversarial sample을 바탕으로 attacker model을 DPO로 학습
- Defender model $\pi_{def}$는 가장 치명적인 adversarial sample $x_w'$을 input으로 받고 output pair을 생성한 후 두 pair에 대한 선호를 바탕으로 DPO 업데이트
여기서 $x_w' = \arg {\max_{x'\in X} {R(x'; y_{pre}, y_{dis})}}$이며, $R$은 다음과 같이 표현된다.

즉 adversarial sample $x'$에 대해서, 선호되지 않는 응답과 선호되는 응답의 log-likelihood가 기존에 비해서 얼마나 증가했느냐에 관한 내용이다.
Adversarial sample의 기준에서, 만약 이 값이 양수인 경우 adversarial attack이 효과적인(선호되지 않는 응답을 출력할 확률이 높아자는) 것으로 해석할 수 있다. Defender의 기준에서 이 값이 음수인 경우 adversarial attack가 있었음에도 선호되는 응답을 더욱 높은 확률로 응답한 것이므로 공격을 잘 막은 것이라고 볼 수 있겠다.
Minimax Optimization의 관점에서 결국 다음과 같이 표현된다:

여기에서 $A(x)$는 perturbed input, 즉 adversarial sample $x'$에 대해서 policy 모델이 잘못된 방향으로 응답하는 경우 보상 모델 $r$이 더 낮은 점수를 주도록 적합되는 한편, outer optimization에서는 policy 모델이 그러한 응답을 더 내지 않도록 적합하는 것이라고 보면 될것이다.
Experiments
살짝 논문의 방법론을 읽다보면 헷갈린다... DPO로만 알고리즘이 구성되어 있는데 갑자기 reward 모델도 나오고 난리가 나있다. 사실 어떠한 제한을 크게 두지 않았으니 추상적으로, 즉 RLHF 계열 방법론들을 적대적 학습이라는 큰 틀 속에서 재구성한 하나의 프레임워크라고 생각하면 좋을 것 같다. 그래서 experiments에 나온 주요 APL방법론 3가지만 설명하고 가겠다.
- APL(RM): Attack Effectivness를 reward model로 대체
- APL (w/o Adv): Adversarial evolution 없이 공격만 하는 고정된 attacker 버전
- APL (Ours): 실제 알고리즘에 나온 방향 그대로인 버전


단순히 DPO로 alignment를 적용하는 것보다 APL 알고리즘을 적용하는 것이 전체적으로 더 좋은 alignment에 도달하는 것을 확인할 수 있다. 논문에서는 또한 이렇게 반복적으로 진화하여 공격하는 attacker가 defender의 robustness를 더욱 향상시키는 것을 강조한다.
Ablation study에서는 defender와 attacker의 DPO 학습 과정에 존재하는 hyperparameter $\beta$에 대해서 각기 다른 값으로 최적화를 해보는 내용이 나온다.

Defender의 $\beta$ 값이 낮을수록 더욱 모델이 alignment와 robustness에서 우수해지는데, 한번 학습 과정 그래프를 보여주면 좋을 것 같다. Appendix에

로 나와있는 것을 보면 살짝 우연의 일치가 아닐까 싶기도...ㅎㅎ

Effectiveness에 대해서 기존 모델에 비해서 얼마나 효과적이었느냐를 보여주는 과정에서 기존 모델의 영향이 일부 존재하면 모델이 더욱 공격에 효과적인 샘플을 통해서 학습할 수 있음을 보여주는 결과이다. 83.33이라는 결과가 나온 것은 엄청 대단하다고 하는데, 조금 비교를 위한 베이스라인을 더 잘 주었으면 좋았겠다는 생각은 든다.
Conclusion
APL은 “공격자–방어자 co-evolution” 구조로 LLM을 반복 학습시켜, 외부 피드백에 의존하지 않고도 안전성을 크게 향상시킨 방법론이다. 즉 기존 RLHF나 DPO가 가진 외부 피드백 의존, 보상 해킹, 제한된 적대적 공격 대응력의 문제를 개선하였고, 실제로도 안정성을 대폭 향상시키면서 공격 성공률을 감소시킨 것이 이 논문의 의의다.
그러나 계산량 자체는 크고, 공격자의 성능이 사실상 방어자의 robustness 상한을 결정하는 꼴이기에, 강력한 공격자를 확보하는 것이 이 논문의 주요 약점이 될 것이다.
'논문 리뷰 > NLP' 카테고리의 다른 글
| GTE 논문 리뷰 (1) | 2025.08.28 |
|---|---|
| Self-Rewarding Language Models 논문 리뷰 (0) | 2025.08.19 |
| Safety Alignment Should Be Made More Than Just a Few Tokens Deep 논문 리뷰 (0) | 2025.08.18 |
| Data Shapley in One Training Run 논문 리뷰 (3) | 2025.08.17 |
| Lifelong Knowledge Editing requires Better Regularization 논문 리뷰 (6) | 2025.08.12 |