EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Summary & Key Contribution
본 논문은 기존 ConvNet에서 성능 향상을 위해 사용되던 너비(width), 깊이(depth), 해상도(resolution) 개별 스케일링 방식의 한계를 지적하며,
세 가지 축을 균형 있게 동시에 확장(compound scaling)하는 새로운 접근법을 제안한다.
이를 통해 같은 계산량(FLOPs) 하에서 기존 모델보다 더 높은 정확도와 효율성을 달성할 수 있음을 입증한다.
또한 EfficientNet 시리즈를 통해 다양한 크기의 모델(B0~B7)을 제시하고, 전이 학습 및 실제 하드웨어 추론 속도까지도 탁월한 성능을 보임을 실험적으로 보여준다.
Related Work
EfficientNet 논문은 기존 ConvNet들이 주로 하나의 축만 확장하여 성능을 향상시키려 했던 점을 지적한다. 각각의 확장 방식은 일정 수중까지만 효과적이고, 추가적인 확장에 대해서는 비효율적 계산 증가 또는 성능 정체 등의 문제가 발생한다.

1. Depth Scaling
장점:
- 더 깊은 네트워크는 더 복잡한 표현이 가능하여, 정확도가 향상된다.
- Resnet50 → ResNet-152 같은 계열 모델이 대표 사례
단점:
- Depth가 너무 깊어지면 Vanishing Gradient, Inference Latency, Memory Usage 증가 등의 문제가 생김
2. Width Scaling
장점:
- 각 레이어에 더 많은 채넣을 추가하면 더 많은 특징을 학습할 수 있음
단점:
- 너비만 증가시키는 경우 local information만 증가하고, 전체 구조 학습에는 한계가 있음
- Depth가 늘어날 수록 계산량이 급격히 증가
3. Resolution Scaling
장점:
- 정교한 패턴 탐지에 유리하며 Object detection 테스크에도 우수
단점:
- Resolution 증가에는 한계가 있음: 성능 증가량이 점점 줄어듦
EfficientNet Architecture
1. Compound Scaling

상단의 이미지에서 확인할 수 있듯이, depth와 resolution을 동시에 늘리는 것이 더욱 높은 정확도를 달성하는 것에 기여할 수 있으며, 또한 같은 정확도를 얻기 위한 연산량(FLOPs)이 다른 기존의 방법들에 비해서 확연히 낮은 것을 볼 수 있다.
또한 본 논문에서는 다음과 같은 scaling 조건에 따르는 것이 우수할 수 있음을 보여준다.

2. Architecture
우선 다음과 같은 EfficientNet-B0모델을 제안한다:

- EfficientNet은 MBConv(Moblile Inverted Bottleneck Convolution) 블럭을 사용한다. 이는 계산량 감소시키며, 정보 흐름을 위한 skip connection을 포함시켜 depth scaling에 유리하다.
- Squeeze-and-Excitation으로 각 채널별 중요도를 학습하며, 중요 채널은 강화하고 덜 중요한 채널은 억제하여 특징 채널 간 상호작용을 반영하여 표현력을 증가시킨다.
- ReLU 비선형 함수 대신 Swish(
swish(x) = x * sigmoid(x))을 사용하여, gradient 흐름을 부드럽게 만든다.
동시에, $\phi$ 값을 증가시키면서(0, 1, ... 7) $\alpha$, $\beta$, $\gamma$ 값을 스케일링 시킨다.
Performance

Accuracy가 다른 방법론에 비해서 매우 우수함을 확인할 수 있으며, 특히 중요한 것은 압도적으로 적은 연산량과 패러미터 수로 더 높은 성능에 도달했다는 것이다.
Transfer Learning에서도 더 높은 성능을 도달할 수 있다는 것도 보여준다.

지연성에서도 더욱 우수했는데, 유사한 정답률을 가지는 모델에 비해서 Latency가 압도적으로 낮은 것을 확인할 수 있다.

Conclusion
EfficientNet은 기존 ConvNet의 scaling 방식이 비효율적일 수 있다는 점에 주목하고, 너비(width), 깊이(depth), 해상도(resolution)의 세 가지 축을 동시에 조절하는 Compound Scaling이라는 새로운 패러다임을 제시하였다.
단일 축 확장 대비 동일한 연산량(FLOPs)에서 더 높은 정확도와 연산 효율성을 달성할 수 있음을 이론적 근거와 실험을 통해 입증하였으며, EfficientNet-B0부터 B7까지의 계열 모델은 실제 하드웨어에서도 우수한 추론 성능을 보였다.
또한, ImageNet뿐 아니라 다양한 전이 학습 데이터셋에서도 기존 SOTA 모델을 능가하는 정확도를 보여주며 범용성도 확보하였다.
'논문 리뷰 > CV' 카테고리의 다른 글
| YOLO 논문 리뷰 (5) | 2025.08.11 |
|---|---|
| Faster R-CNN 논문 리뷰 (0) | 2025.08.10 |
| R-CNN 논문 리뷰 (3) | 2025.08.09 |
| CLIP 논문 리뷰 (1) | 2025.08.05 |
| ViT 논문 리뷰 (1) | 2025.08.01 |