논문 리뷰/NLP

AlphaEdit 논문 리뷰

manfromearth1 2025. 8. 9. 00:31

ALPHAEDIT: NULL-SPACE CONSTRAINED KNOWLEDGE EDITING FOR LANGUAGE MODELS

엄청 좋아하는 논문이라 리뷰하고 싶었는데... 이상한 고집이 있어 이전 model editing 기법들을 리뷰하려고 수식을 막 쓰다가 열받아서 포기했었다. 그래서 이 논문을 스타트로 model editing에 대한 방법론을 리뷰하고자 한다.

Summary

본 논문은 모델의 잘못된 응답에 대한 해결책으로 모델의 패러미터를 일부 수정하는 방법론에서 패러미터 $W$의 null space를 활용하는 방법을 제시한다.
이러한 Model Editing의 이전 방법론들은 모델의 수정하고자 하는 지식 $e_1$과 수정으로 인해 에러가 발생할 수도 있는 기존의 지식 $e_0$간의 밸런스를 지키지 못하였는데, 본 논문은 이러한 문제를 해결할 수 있음을 보여준다.

이 접근법은 대규모 LLM처럼 전체 재학습이 불가능하거나 비효율적인 경우, 정확하고 국소적인 지식 편집을 위한 강력한 대안을 제시한다.

Preliminary

본 논문은 특히 언어모델의 잘못된 응답에 맞추어서 이를 수정하는 방법을 다루기에, 다른 아키텍처는 다루지 않겠다.

Auto-Regressive LM

$l$번째 hidden representation은 이전 단계의 hidden representation과 attention block $a^l$, 그리고 언어모델이 참고하는 지식 $m^l$의 합으로 이루어져 있다. $l$번째 단계의 $m$은 다음과 같은 식으로 구성된다:

여기에서 $W_{in}$으로 연결된 $k$ 부분과 $W_{out}$은 linear associative memory라 불리는데, 이는 모델 내부의 information(knowledge라 보는 것이 낫겠다) retrieval을 위한 key-value storage로서 기능한다는 것을 확인할 수 있다. 즉 $k$ 부분에서 어떤 지식을 참고해야 할지 정하고, $W_{out}$를 통해 key와 실제 지식인 value를 mapping시켜준다고 생각하면 된다.

Model Editing in LLMs

$K_1$과 $V_1$은 수정하고자 하는 지식이고, $K_0$와 $V_0$는 보존하고자 하는 지식이다. 왜 이렇게 식을 구성하냐면, 잘못된 지식을 수정하는 과정에서 반드시 기존 지식도 영향을 받을 수밖에 없으며, 극단적으로는 catastrophic forgetting까지 일어날 수 있는 일이기 때문이다.

최적의 $\Delta$를 찾았다고 가정하자. 그렇게 되는 경우

$(W+\Delta)K_1 \approx V_1$ (원하는 대로 수정이 잘 되었음)
$(W+\Delta)K_0 \approx V_0$ (기존 지식은 거의 바뀌지 않았음)

을 달성하게 된다. 다시 말해서 최적의 $\Delta$는 cherry picking마냥 딱 원하는 부분만 수정하고 나머지 부분은 건드리지 않는다는 것이다. 이에 대한 실제 closed form solution도 존재한다:

그러나 보존할 지식 자체가 LLM의 범위에서 너무 크기 때문에, 실제로는 100,000개 정도의 지식만 랜덤하게 추출한 후 모델 수정을 시도한다고 한다.

그럼에도 불구하고 이것 자체가 말도 안되는 일인 이유는:

역행렬을 구하는 과정의 계산량은 $O(d^3)$이며, LLM의 $d$는 압도적으로 크기 때문에 연산과 메모리 비용이 지나치게 증가하고
원하는 Key $K_0, K_1$을 뽑아낸다는 것 또한 불가능에 가깝기 때문이다.

Null Space

$$ B \text{ is in the left null space of } A \text{ if and only if } BA = 0 $$

GPT 5 형님이 증명을 잘 하신다:

Method

$(W+\Delta)K_0 \approx V_0$을 기억해보자. 지금은 $(W+\Delta)K_0 = V_0$으로 바꾸겠다.

만약 위의 식이 성립한다면 $\Delta$는 $K_0$의 left null space에 존재하는 것이고, 여기서 아이디어는 perturbation이 $K_0$의 left null space에서 이루어진다면 기존 지식을 수정하지 않고도 model editing을 할 수 있다는 뜻이다.

그러나 $K_0$는 보통 $d_0 × 100,000$차원(위에서 말한 방법대로)이기에 직접적으로 null space를 구하는 것은 불가능하다. $K_0$의 left null space의 basis는 $d_0$ 차원 벡터로 이루어져 있으므로, 이를 대신하여 non-central covariance matrix인 $K_0K_0^T$를 통해 계산 문제를 우회할 수 있다.

즉 $K_0$의 left null space는 $K_0K_0^T$의 null space와 동일하며, 이렇게 차원을 낮추는 방식(보통 $d_0$가 100,000보다 압도적으로 작다)이 null space를 찾는 것의 해결책인 것이다.

이제는 null space를 찾기 위해서, SVD를 적용할 수 있다. 하지만 대칭행렬이므로 diagonalization이라고 보면 되겠다. 여기에서 만약 eigenvalue로 이루어진 matrix $\Lambda$에 $0$이 존재하는 component가 있다면, 그 위치에 해당하는 eigenvector은 $K_0$의 left null space의 basis를 이룰 수 있는 것이다.

논문에서 설명하듯이, 여기서 non-zero eigenvalue를 가지고 있는 eigenvector을 제거함으로써 $P \cdot K_0K_0^T=0$, $PK_0=0$을 달성할 수 있으며 우리는 $\Delta$를 $P$와 곱해주면서 안전하게 모델을 수정하게 할 수 있는 것이다.

결국 optimal solution을 찾아가는 식은 다음과 같이 되는데,

여기에서 붙은 regularization term $||\Delta P ||^2$는 stable convergence를 위한 것이라고 한다.

더 나아가서, 순차적인 edit task를 한다고 가정하자. 그렇게 한다면 업데이트 된 이전의 지식을 갑자기 없애버리면 또 문제가 생기니, 본 논문은 다음과 같은 regularization term을 두는 것을 제안한다.

또한 이 논문은 이전 Model Editing 기법 중 하나인 MEMIT와의 차이점을 보여주는데, 우선 귀여운 그림부터 보고 가자:

MEMIT는 여전히 $K_0$ 자체를 분리하여 문제 해결을 할 수 없는 것을 확인할 수 있다. 반면 AlphaEdit은 애초에 $K_0$자체를 너무 잘 분리를 했기에 기존 지식의 망각 자체를 걱정할 필요가 없게 되는 것이다.

Experiment

본 논문은 다음과 같은 연구 질문을 바탕으로 실험을 진행하였다:

RQ1: AlphaEdit가 순차적인 editing process에서 얼마나 성능을 보이는가? 이전 방법론들의 한계인 기존 지식의 붕괴 또는 망각을 완화할 수 있는가?
RQ2: 실제로 edit된 LLM이 일반적 능력, 고유한 능력을 잘 유지할 수 있는가?
RQ3: 갱신된 지식에 대한 과적합을 방지할 수 있는가? 특히, post-edited LLM의 hidden representation의 shift를 피할 수 있는가?
RQ4: 기존의 model editing 방법론들도 null space projection 코드를 추가하는 것만으로도 성능이 증가하는가?

Edit 당 100개의 샘플, 총 2000개의 샘플에 대해서 edit을 한 후의 결과이다. 성능 보존이 잘 되며, 특히 성능이 더욱 올라간 것은 굉장히 인상적이다. (RQ1)

우선 6개의 benchmark test에서 다른 방법론들에 비해서 매우 우수한 것을 볼 수 있다. 특히 순차적인 editing 과정에서 일정 수의 editing이 지나면 모델 붕괴가 오는 다른 방법론들에 비해서 안정적으로 잘 살아남는 것을 확인할 수 있다. 즉 고유한 능력을 잘 보존한다고 볼 수 있다. (RQ1, RQ2)

Pre-edited LLM과 Post-edited LLM의 representation을 비교해본 결과이다. 다른 방법론은 전부 다 분포가 뒤바뀌는 것을 볼 수 있는데, AlphaEdit은 최소한의 shift를 보여주는 것을 확인할 수 있다. (RQ3)

노란색은 기존 방법론이고, 파란색은 단순히 AlphaEdit의 null space projection 관련 코드를 추가한 후의 결과물이다. 더 말할 필요가 없을 것 같다! (RQ4)

Conclusion

Significance

Null space projection을 통해서 기존 지식 자체를 건드리지 않으면서 필요한 부분만 수정할 수 있다는 것이 이 논문의 의의다. 무엇보다 기존 기법에도 충분히 범용적으로 적용이 가능하며 모델 또한 여러 모델로 실험함으로써 실험 설계 자체도 아름답다고 할 수 있다.

Limitations

더 큰 LLM을 다룸에 있어서 얼마나 효과적일지에 대한 검증은 추가적으로 필요하다고 본다. 왜냐하면 null space 계산 자체를 우회하기는 했지만, 모델 크기가 압도적으로 증가하는 경우 이 방법론이 100% 효과적일 것이라고는 생각하지 않는다.

또한 null space projection은 기존 key-value mapping 자체를 건드리지는 못한다. 즉 구조적으로 key와 value 간 관계를 재구성해야 하는 경우 편집에 다소 부적합할 수 있겠다는 생각이 든다.

하지만 나는 이 논문을 매우 칭송하며 GOAT 논문이라고 말하지 않을 수가 없을 것 같다!!!!

'논문 리뷰 > NLP' 카테고리의 다른 글

Lifelong Knowledge Editing requires Better Regularization 논문 리뷰 (6)	2025.08.12
DPO 논문 리뷰 (3)	2025.08.12
Orca 2 논문 리뷰 (3)	2025.08.08
Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo 논문 리뷰 (2)	2025.08.07
InstructGPT 논문 리뷰 (1)	2025.08.05

현재글AlphaEdit 논문 리뷰

manfromearth1 님의 블로그

manfromearth1 님의 블로그 입니다.

RLHF, mlflow, BitCoin, docker, Adversarial Preference Learning for Robust LLM Alignment, kstreams, I-JEPA, Kafka, apo,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

manfromearth1 님의 블로그

AlphaEdit 논문 리뷰

ALPHAEDIT: NULL-SPACE CONSTRAINED KNOWLEDGE EDITING FOR LANGUAGE MODELS

Summary