Aggregated Residual Transformations for Deep Neural Networks

이 논문이 주는 인사이트를 확인하기에 앞서서, VGG 기반 아키텍처와 Inception기반 아키텍처에 대해서 탐구해보자.
VGG 기반 아키텍처는 구조가 단순하다는 점에서 큰 강점을 지닌다. 동일한 형태의 블록을 반복적으로 쌓아 올리는 방식만으로도 모델의 깊이를 쉽게 확장할 수 있으며, 이에 따라 성능 역시 꾸준히 향상된다. 특히 하이퍼파라미터의 수를 최소화할 수 있다는 점은 가장 큰 장점 중 하나로, 이는 모델 설계의 복잡성을 크게 줄여줄 뿐만 아니라 과도한 파라미터 조정으로 인한 오버피팅 위험을 감소시키고, 나아가 일반화 성능을 향상시키는 데에도 기여한다.
Inception 기반 아키텍처는 표현의 다양성을 확보할 수 있다는 점에서 그 장점이 드러난다. 특히 컨볼루션 과정에서 작은 필터가 세부적인 특징, 큰 필터가 전체적인 특징을 확보할 수 있는 것처럼, 다양한 필터를 사용함으로써 공간 정보 활용력이 높다. 또한 입력을 여러 하위공간으로 나누어 특징을 병렬적으로 학습한 후 합치는 전략(Split-Transform-Merge)은 모델의 표현력을 늘릴 수 있다.
VGG의 단점은 Inception이 강점으로 지니고 있는 영역이고, Inception이 가진 단점은 VGG가 강점으로 지니고 있는 영역이다. 이러한 구조를 둘 다 사용하여 만든 아키텍처가 ResNeXt인 것이다.
조금 더 설명하면, VGG 기반 아키텍처의 단점은 필터가 표현을 충분히 학습하지 못한다는 것이다. 필터를 늘리면 그 문제를 해결할 수 있을 것이라는 생각과 다르게, 필터를 늘려서 증가하는 연산량 및 메모리에 비해 학습의 깊이는 오래되지 않은 것이다.
Inception은 서로 사이즈가 다른 필터가 존재하며 컨볼루션이 VGG처럼 모든 필터가 한 번에 적용되는 것이 아니라 정해진 필터(혹은 필터 집합)끼리 따로 컨볼루션이 적용되기 때문에 표현을 독립적으로도 학습할 수 있다.
따라서 이 논문을 볼 때 가져야 하는 필수 관점으로는, (1) 필터를 더 늘리지 않고, 혹은 연산량을 더 늘리지 않고 더 좋은 성능을 달성할 수 있는가 (2) 하이퍼패러미터의 튜닝이 VGG 기반과 동일하게 단순한가이다. 한번 이 두 기준을 두고 논문을 읽어보자.
Method

ResNeXt에 있는 C=32는 그룹화된 컨볼루션의 개수를 의미한다. (conv2만 비교) 즉 128개의 필터에 대해서, 각 필터 4개씩, 32개의 그룹이 컨볼루션에 적용된다. 기본 ResNet의 경우 컨볼루션 적용 과정에서 64개의 필터가 한번에 적용되어 필터 간 종속성이 생기는 반면, ResNeXt는 그룹마다 따로 컨볼루션이 적용되기 때문에 학습 과정에서 그래디언트 전달은 서로 다른 그룹에 동일하게 적용되지 않는다.
위의 table을 보면, 필터의 개수마저도 늘어난 것을 확인할 수 있다. 필터 개수가 늘어났으면 패러미터가 늘어야 한다는 통념과 어긋난다. 한 번 확인해보자:
입력 채널 $C_{in}=256$, 출력 채널 $C_{out}=128$, 커널 크기 $3\times 3$에 대한 패러미터 수를 확인해보자.
- 일반 Conv의 패러미터 수는 $256 \times 128 \times 3 \times 3 = 294,912$
- Grouped Conv의 패러미터 수($G=32$)는 각 그룹 당 $256 / 32 \times 128 / 32 \times 3 \times 3 = 288$, 전체 패러미터 수는 $32 \times 288=9,216$
즉 그룹으로 나누어져 각 그룹당 할당하는 인풋 채널과 아웃풋 채널이 달라지기 때문에, 전체 패러미터 수가 크게 줄 수 있는 것이다.

각 그룹의 결과물을 인풋 차원으로 늘린 후 단순히 더해져서 합쳐지는 경우(a), 결과물이 concat되고 나서 차원을 인풋과 맞춰주는 경우(b), 그룹 결과물들을 쌓은 후 $1\times 1$ 컨볼루션으로 차원을 인풋으로 맞춰주는 경우(c) 전부 다 동등하다.
3.3 Aggregated Transform에서 간단한 수식만으로도 ResNet와 ResNeXt의 차이점을 확인할 수 있다. ResNet의 경우
$$ F'(x) = x + F(x) $$
의 형태이다. ResNeXt도 동일하지만,

으로 $F(x)$가 바뀐 것을 확인할 수 있다. 앞서 말했듯이, 동일해 보이지만 $F$가 $T_i$들로 쪼개어져, $T$들은 서로 학습 과정에서 그래디언트가 전달되지 않는다는 것이 핵심 차이다. 이제 논문에서 ensemble과 neural decision tree를 언급한 이유를 유추할 수 있을 것이다. 필터를 여러 개 두는 것도 물론 ensemble이기는 하지만, 필터를 그룹으로 묶어 서로의 의존성을 끊어줌으로써 ensemble의 효과를 더욱 높일 수 있는 것이다.
아직 이 방법이 Inception 구조처럼 로컬(local)과 글로벌(global) 정보를 모두 강력하게 학습한다는 점을 보여주지 않았다. 그러나 구조적인 특성만 보아도 중요한 시사점을 얻을 수 있다. 다시 첫 번째 표를 살펴보면, stage가 깊어질수록 feature map의 해상도가 점차 낮아진다는 것을 확인할 수 있다. 이는 곧 각 stage에서의 역할이 달라진다는 것을 의미한다.
특히, 각 stage마다 독립적인 그룹이 존재하기 때문에, 초기 단계에서는 높은 해상도를 바탕으로 세밀하고 국소적인(local) 정보를 정교하게 포착할 수 있고, 단계가 올라갈수록 정보가 점차 압축·추상화되어 전체적인(global) 맥락과 구조를 학습하는 방향으로 전환된다. 이러한 계층적 표현 특성은 네트워크가 다양한 수준의 정보를 효과적으로 통합하도록 돕는다.
이제는 Experiment를 확인하면서 본 논문이 제시하는 아키텍처의 효과를 확인해보도록 하자.
Experiments
모든 실험에 대해서 리뷰할 수 있지만, 필자는 본 논문에 대한 관점이 (1) 필터를 더 늘리지 않고, 혹은 연산량을 더 늘리지 않고 더 좋은 성능을 달성할 수 있는가 (2) 하이퍼패러미터의 튜닝이 VGG 기반과 동일하게 단순한지이기 때문에, 이제 좋은 성능을 달성하는지 확인해보도록 하겠다.
필터 수를 늘렸음에도 연산량 및 패러미터 수는 차이가 없는 것을 확인했기 때문에 이제 Inception의 장점을 가지고 있는지에 대해서 확인하면 된다.

이것으로 충분하다. 전체적인 이미지의 sementic을 봐야 하는 CIFAR-10 데이터의 테스크와 이미지의 디테일한 부분에 주목해야 하는 COCO, object detection 테스크 둘 다에서 성능이 높은 것을 확인할 수 있다.
'논문 리뷰 > CV' 카테고리의 다른 글
| One-step Diffusion with Distribution Matching Distillation 논문 리뷰 (0) | 2026.05.16 |
|---|---|
| Swin Transfromer 논문 리뷰 (0) | 2025.10.03 |
| SwAV 논문 리뷰 (0) | 2025.09.26 |
| Barlow Twins 논문 리뷰 (3) | 2025.08.29 |
| Noisy Student 논문 리뷰 (1) | 2025.08.29 |