CNN에서 ResNet까지: 객체 인식과 전이 학습을 바꾼 네 가지 혁신

컴퓨터 비전의 핵심 흐름은 CNN 아키텍처의 진화와 함께 발전해 왔습니다.
이 문서는 CNN, AlexNet, VGG, ResNet의 혁신 포인트와 객체 인식/전이 학습에 준 영향을 정리하고, YOLO·SSD와 U-Net의 관계를 비교합니다.

1. CNN: 모든 혁신의 기반

CNN은 개별 모델이 아니라 이미지 처리용 아키텍처 패밀리의 뿌리입니다.

핵심 기여:

가중치 공유/부분 연결로 파라미터 폭발 완화
계층적 특징 학습(저수준 -> 고수준)
현대 검출기의 백본(backbone) 기반 제공

전이 학습 관점:

초기 레이어의 범용 시각 특징(에지/텍스처)은 다양한 과제에 재사용 가능

2. AlexNet (2012): 딥러닝 대중화의 출발점

주요 혁신:

ReLU 본격 도입
Dropout 적용
GPU 병렬 학습 확산

영향:

ImageNet 성능 도약
R-CNN 계열의 특징 추출기로 활용되며 탐지 성능 급상승
사전학습 모델 재사용 문화(전이 학습) 확산

3. VGGNet (2014): 깊이와 단순성의 표준화

주요 혁신:

작은 3x3 필터 반복으로 깊은 네트워크 구성
단순하고 일관된 구조

영향:

한동안 검출기 백본 표준으로 널리 사용(VGG-16)
전이 학습 베이스 모델로 높은 실무 채택

4. ResNet (2015): 깊이의 한계 돌파

주요 혁신:

Residual Learning + Skip Connection
초심층 학습 안정화
Bottleneck으로 연산 효율 확보

영향:

검출/분할 백본의 사실상 표준(ResNet-50/101)
현대 비전 파이프라인 전반의 기본 골격 제공

5. U-Net은 어디에 속하나?

U-Net은 분류/검출 백본 계열과 목적이 다릅니다.

목적: 픽셀 단위 분류(세그멘테이션)
구조: Encoder-Decoder + Skip Connection
출력: 박스가 아닌 픽셀 마스크

즉, YOLO/SSD와 직접 계보라기보다 “다른 문제를 푸는 특화 아키텍처”에 가깝습니다.

6. YOLO·SSD vs ResNet·VGG vs U-Net

Detection 계열 (YOLO/SSD/Faster R-CNN)

목표: 클래스 + 박스 좌표 동시 예측
일반 구조: Backbone CNN + Detection Head
백본으로 ResNet/VGG/MobileNet/Darknet 등 사용

Segmentation 계열 (U-Net/DeepLab)

목표: 픽셀 단위 클래스 예측
일반 구조: Encoder-Decoder + Skip

한눈 비교

문제 유형	질문	대표 모델	구조 특징	Backbone 연결성
Classification	이 이미지에 무엇이 있나?	AlexNet, VGG, ResNet	단방향 feature extractor	모델 자체
Detection	어디에 무엇이 있나?	YOLO, SSD, Faster R-CNN	Backbone + Detection Head	ResNet/VGG 계열과 밀접
Segmentation	각 픽셀은 무엇인가?	U-Net, DeepLab	Encoder-Decoder + Skip	세그멘테이션 특화

종합 정리

CNN: 이미지 딥러닝의 구조적 기반
AlexNet: 실용 딥러닝 시대 개막
VGG: 단순·깊은 구조의 표준화
ResNet: 초심층 학습을 가능하게 한 전환점
YOLO/SSD: CNN 백본 위 검출기로 발전
U-Net: 픽셀 단위 예측 중심의 별도 축

이 흐름을 이해하면 새 모델이 나와도 “분류/검출/분할 중 어디에 속하고, 어떤 백본 철학을 계승했는지”를 빠르게 판단할 수 있습니다.