논문 리뷰/CV

ResNeXt 논문 리뷰

manfromearth1 2025. 9. 26. 18:14

Aggregated Residual Transformations for Deep Neural Networks


이 논문이 주는 인사이트를 확인하기에 앞서서, VGG 기반 아키텍처와 Inception기반 아키텍처에 대해서 탐구해보자.

 

VGG 기반 아키텍처는 구조가 단순하다는 점에서 큰 강점을 지닌다. 동일한 형태의 블록을 반복적으로 쌓아 올리는 방식만으로도 모델의 깊이를 쉽게 확장할 수 있으며, 이에 따라 성능 역시 꾸준히 향상된다. 특히 하이퍼파라미터의 수를 최소화할 수 있다는 점은 가장 큰 장점 중 하나로, 이는 모델 설계의 복잡성을 크게 줄여줄 뿐만 아니라 과도한 파라미터 조정으로 인한 오버피팅 위험을 감소시키고, 나아가 일반화 성능을 향상시키는 데에도 기여한다.

 

Inception 기반 아키텍처는 표현의 다양성을 확보할 수 있다는 점에서 그 장점이 드러난다. 특히 컨볼루션 과정에서 작은 필터가 세부적인 특징, 큰 필터가 전체적인 특징을 확보할 수 있는 것처럼, 다양한 필터를 사용함으로써 공간 정보 활용력이 높다. 또한 입력을 여러 하위공간으로 나누어 특징을 병렬적으로 학습한 후 합치는 전략(Split-Transform-Merge)은 모델의 표현력을 늘릴 수 있다.

VGG의 단점은 Inception이 강점으로 지니고 있는 영역이고, Inception이 가진 단점은 VGG가 강점으로 지니고 있는 영역이다. 이러한 구조를 둘 다 사용하여 만든 아키텍처가 ResNeXt인 것이다.

 

조금 더 설명하면, VGG 기반 아키텍처의 단점은 필터가 표현을 충분히 학습하지 못한다는 것이다. 필터를 늘리면 그 문제를 해결할 수 있을 것이라는 생각과 다르게, 필터를 늘려서 증가하는 연산량 및 메모리에 비해 학습의 깊이는 오래되지 않은 것이다.

Inception은 서로 사이즈가 다른 필터가 존재하며 컨볼루션이 VGG처럼 모든 필터가 한 번에 적용되는 것이 아니라 정해진 필터(혹은 필터 집합)끼리 따로 컨볼루션이 적용되기 때문에 표현을 독립적으로도 학습할 수 있다.

 

따라서 이 논문을 볼 때 가져야 하는 필수 관점으로는, (1) 필터를 더 늘리지 않고, 혹은 연산량을 더 늘리지 않고 더 좋은 성능을 달성할 수 있는가 (2) 하이퍼패러미터의 튜닝이 VGG 기반과 동일하게 단순한가이다. 한번 이 두 기준을 두고 논문을 읽어보자.


Method

ResNeXt에 있는 C=32는 그룹화된 컨볼루션의 개수를 의미한다. (conv2만 비교) 즉 128개의 필터에 대해서, 각 필터 4개씩, 32개의 그룹이 컨볼루션에 적용된다. 기본 ResNet의 경우 컨볼루션 적용 과정에서 64개의 필터가 한번에 적용되어 필터 간 종속성이 생기는 반면,  ResNeXt는 그룹마다 따로 컨볼루션이 적용되기 때문에 학습 과정에서 그래디언트 전달은 서로 다른 그룹에 동일하게 적용되지 않는다.

 

위의 table을 보면, 필터의 개수마저도 늘어난 것을 확인할 수 있다. 필터 개수가 늘어났으면 패러미터가 늘어야 한다는 통념과 어긋난다. 한 번 확인해보자:

입력 채널 $C_{in}=256$, 출력 채널 $C_{out}=128$, 커널 크기 $3\times 3$에 대한 패러미터 수를 확인해보자.

  • 일반 Conv의 패러미터 수는 $256 \times 128 \times 3 \times 3 = 294,912$
  • Grouped Conv의 패러미터 수($G=32$)는 각 그룹 당 $256 / 32 \times 128 / 32 \times 3 \times 3 = 288$, 전체 패러미터 수는 $32 \times 288=9,216$

즉 그룹으로 나누어져 각 그룹당 할당하는 인풋 채널과 아웃풋 채널이 달라지기 때문에, 전체 패러미터 수가 크게 줄 수 있는 것이다.

각 그룹의 결과물을 인풋 차원으로 늘린 후 단순히 더해져서 합쳐지는 경우(a), 결과물이 concat되고 나서 차원을 인풋과 맞춰주는 경우(b), 그룹 결과물들을 쌓은 후 $1\times 1$ 컨볼루션으로 차원을 인풋으로 맞춰주는 경우(c) 전부 다 동등하다.

 

3.3 Aggregated Transform에서 간단한 수식만으로도 ResNet와 ResNeXt의 차이점을 확인할 수 있다. ResNet의 경우

$$ F'(x) = x + F(x) $$

의 형태이다. ResNeXt도 동일하지만,

으로 $F(x)$가 바뀐 것을 확인할 수 있다. 앞서 말했듯이, 동일해 보이지만 $F$가 $T_i$들로 쪼개어져, $T$들은 서로 학습 과정에서 그래디언트가 전달되지 않는다는 것이 핵심 차이다. 이제 논문에서 ensemble과 neural decision tree를 언급한 이유를 유추할 수 있을 것이다. 필터를 여러 개 두는 것도 물론 ensemble이기는 하지만, 필터를 그룹으로 묶어 서로의 의존성을 끊어줌으로써 ensemble의 효과를 더욱 높일 수 있는 것이다.

 

아직 이 방법이 Inception 구조처럼 로컬(local)과 글로벌(global) 정보를 모두 강력하게 학습한다는 점을 보여주지 않았다. 그러나 구조적인 특성만 보아도 중요한 시사점을 얻을 수 있다. 다시 첫 번째 표를 살펴보면, stage가 깊어질수록 feature map의 해상도가 점차 낮아진다는 것을 확인할 수 있다. 이는 곧 각 stage에서의 역할이 달라진다는 것을 의미한다.

 

특히, 각 stage마다 독립적인 그룹이 존재하기 때문에, 초기 단계에서는 높은 해상도를 바탕으로 세밀하고 국소적인(local) 정보를 정교하게 포착할 수 있고, 단계가 올라갈수록 정보가 점차 압축·추상화되어 전체적인(global) 맥락과 구조를 학습하는 방향으로 전환된다. 이러한 계층적 표현 특성은 네트워크가 다양한 수준의 정보를 효과적으로 통합하도록 돕는다.

 

이제는 Experiment를 확인하면서 본 논문이 제시하는 아키텍처의 효과를 확인해보도록 하자.


Experiments

모든 실험에 대해서 리뷰할 수 있지만, 필자는 본 논문에 대한 관점이 (1) 필터를 더 늘리지 않고, 혹은 연산량을 더 늘리지 않고 더 좋은 성능을 달성할 수 있는가 (2) 하이퍼패러미터의 튜닝이 VGG 기반과 동일하게 단순한지이기 때문에, 이제 좋은 성능을 달성하는지 확인해보도록 하겠다.

 

필터 수를 늘렸음에도 연산량 및 패러미터 수는 차이가 없는 것을 확인했기 때문에 이제 Inception의 장점을 가지고 있는지에 대해서 확인하면 된다.

이것으로 충분하다. 전체적인 이미지의 sementic을 봐야 하는 CIFAR-10 데이터의 테스크와 이미지의 디테일한 부분에 주목해야 하는 COCO, object detection 테스크 둘 다에서 성능이 높은 것을 확인할 수 있다.

'논문 리뷰 > CV' 카테고리의 다른 글

One-step Diffusion with Distribution Matching Distillation 논문 리뷰  (0) 2026.05.16
Swin Transfromer 논문 리뷰  (0) 2025.10.03
SwAV 논문 리뷰  (0) 2025.09.26
Barlow Twins 논문 리뷰  (3) 2025.08.29
Noisy Student 논문 리뷰  (1) 2025.08.29