Self-training with Noisy Student improves ImageNet classification
Summary
본 논문은 작은 baseline 모델로부터 생성된 pseudo label을 활용하여, 더 큰 student 모델을 노이즈(데이터 증강, dropout, stochastic depth 등) 주입 환경에서 학습시키는 새로운 반지도 학습 방법을 제안한다. 이 접근은 self-training과 distillation을 확장한 것으로, 단순한 성능 향상을 넘어 일반화와 강건성(robustness)을 크게 개선한다.

Architecture
Algorithm

알고리즘은 위와 같다. Parameter size가 작은 teacher model을 label된 이미지에 대해서 훈련하여 unlabel된 이미지에 대해서 pseudo label(soft 또는 hard label)을 만들어내고, 크기가 teacher 모델 이상인 student 모델에 대해서 데이터(실제 label된 데이터 및 pseudo label된 데이터 포함), 모델에 noise를 주입하는 방식으로 훈련시키는 방법이다. 이렇게 만들어진 student는 다시 teacher 모델로 쓰이며 새로운 student에 대한 훈련을 진행한다.
Noise Injection
Noise injection은 크게 두 가지, data에 대해 적용하는 input noise와 model에 대해 적용하는 model noise가 이에 해당한다.
- Input Noise: 논문에서는 RandAugment를 이용한 data augmentation으로 input noise를 제시한다. 이 방법은 student 모델이 데이터에 대한 노이즈에도 불구하고 teacher 모델의 label에 맞추도록 강제되기 때문에 robustness를 teacher 모델보다 더 키우는 장점이 있다.
- Model Noise: 논문에서는 model noise로 dropout와 stochastic depth function을 제시한다. Dropout은 model neural network 출력(activation)의 일부를 0으로 치환하여 신호가 전달되지 않게 하는 방법이고, stochastic depth function은 residual network 블록 전체를 확률적으로 생략하고 identity shortcut으로만 통과하는 방식을 의미한다. 훈련된 teacher model 또한 이러한 방식으로 훈련되므로 네트워크의 수많은 서브 네트워크가 하나의 모델 안에서 암묵적으로(implicitly) 학습되는 셈이다. 이렇게 앙상블된 모델이 나오는 안정적인 출력값에 대해서, 학생 모델 또한 dropout와 stochastic depth을 적용받기 때문에, 불안정한 상황에서도 안정적인 답을 내도록 학습되어 모델이 강건해짐을 알 수 있다.
추가적으로 논문에서는 data filtering과 balancing을 제시하여 student 모델이 더욱 잘 학습할 수 있도록 유도한다. 우선 pseudo label으로 제공되는 데이터에 대해서 teacher model이 낮은 confidence를 보이는 경우 필터링한다. 또한 라벨 없는 이미지들의 분포와 학습 데이터셋의 분포가 일치하도록 하기 위해 이미지가 부족한 경우 이미지를 중복시키고, 이미지가 너무 많은 경우 신뢰도가 가장 높은 이미지만 선택하면서 밸런스를 맞춘다.
Experiments

더 적은 패러미터로도 좋은 성능을 보임을 확인할 수 있다. 이번에는 EfficientNet을 일반적인 방법으로 학습한 teacher 모델과 그것을 바탕으로 동일 모델을 student로 학습한 것을 확인해보자.

모델의 크기와는 별개로 일관적으로 성능이 향상되는 것을 확인할 수 있다. 또한 Robustness에서도 강점을 보이는데, adversarial attack에서도 강한 것을 확인할 수 있다.

Ablation study에서는 noisy student training에서 noise를 주입하는 것이 얼마나 중요한지에 대해서 보여준다.

Augmentation과 SD, Dropout을 적용하는 것이 student 모델의 성능 향상에 기여할 수 있는 것을 알 수 있다. 이 글의 독자는 student 모델에게 어떠한 noise도 주입하지 않았을 때의 성능과 논문에서 제시하는 noise를 주입한 경우의 차이를 확인해보면 될 것이다.
Conclusion
본 논문은 작은 baseline 모델로부터 생성된 pseudo label을 활용하여, 더 큰 student 모델을 노이즈(데이터 증강, dropout, stochastic depth 등) 주입 환경에서 학습시키는 방법만으로도 모델의 성능 향상과 일반화에 크게 기여할 수 있음을 보였다는 측면에서 의의가 있다고 볼 수 있다.
'논문 리뷰 > CV' 카테고리의 다른 글
| SwAV 논문 리뷰 (0) | 2025.09.26 |
|---|---|
| Barlow Twins 논문 리뷰 (3) | 2025.08.29 |
| I-JEPA 논문 리뷰 (0) | 2025.08.28 |
| MoCo 논문 리뷰 (3) | 2025.08.28 |
| U-Net 논문 리뷰 (0) | 2025.08.24 |