CNN 아키텍처의 진화와 딥러닝 응용 전략: 컴퓨터 비전의 큰 흐름 속에서
컴퓨터 비전의 발전은 CNN 아키텍처의 진화와 함께 진행됐습니다.
LeNet-5에서 시작해 AlexNet, VGG, GoogLeNet, ResNet으로 이어진 흐름은 이미지 인식/탐지 성능을 크게 끌어올렸고, 오늘날 전이 학습 기반 실무 응용의 토대가 되었습니다.
전통적 방식의 한계와 CNN의 등장
과거 FCN/MLP 기반 이미지 처리에는 한계가 있었습니다.
- 공간 구조 손실: Flatten 과정에서 위치 정보 소실
- 파라미터 폭증: 입력 해상도 증가 시 연결 수 급격히 증가
CNN은 합성곱 연산과 가중치 공유로 이 문제를 해결하며, 지역 특징을 계층적으로 학습하는 구조를 제시했습니다.
CNN의 기본 구성 요소
1) 합성곱 층 (Convolutional Layer)
- 필터(커널)를 슬라이딩하며 특징 추출
- 가중치 공유로 파라미터 절감
- 선/텍스처/패턴 감지에 강함
2) 활성화 함수 (Activation Function)
- ReLU로 비선형성 확보
- 학습 속도 개선, 기울기 소실 완화
3) 풀링 층 (Pooling Layer)
- 공간 차원 축소로 계산 효율 향상
- 위치 변화에 대한 불변성 강화
4) 완전 연결 층 (Fully Connected Layer)
- 고차원 특징 통합 후 최종 분류/회귀 수행
이 구조를 통해 CNN은 저수준 특징 -> 고수준 의미로 이어지는 계층적 특징 학습을 수행합니다.
주요 CNN 아키텍처 발전 흐름
1. LeNet-5 (1998)
- 실용적인 초기 CNN 구조 제시
- 손글씨 숫자 인식에서 성능 입증
2. AlexNet (2012)
- ILSVRC 우승으로 딥러닝 대중화 촉발
- ReLU, Dropout, GPU 병렬 학습 적극 활용
3. VGGNet (2014)
- 깊이 증가의 효과를 명확히 보여줌
- 3x3 필터 반복의 단순하고 강력한 설계
4. GoogLeNet / Inception (2014)
- 인셉션 모듈로 멀티스케일 병렬 추출
- 1x1 병목 합성곱으로 연산량 최적화
5. ResNet (2015)
- Skip Connection(Residual Learning) 도입
- 초심층 네트워크 학습 안정화
- 기울기 소실 문제를 실용적으로 해결
딥러닝 응용 전략: 전이 학습 (Transfer Learning)
실무에서는 ImageNet 사전학습 모델을 재사용하는 전이 학습이 핵심입니다.
특징 추출 (Feature Extraction)
- 백본(합성곱 층) 고정
- 분류기 헤드만 교체·학습
- 데이터가 적을 때 효과적
미세 조정 (Fine-tuning)
- 사전학습 가중치를 초기값으로 사용
- 상위층 또는 전체를 재학습
- 도메인 차이가 크거나 데이터가 충분할 때 유리
결론
- LeNet-5는 기본 틀을 만들고,
- AlexNet은 딥러닝 전환점을 만들었으며,
- VGG/GoogLeNet/ResNet은 깊이·효율·학습 안정성 문제를 단계적으로 해결했습니다.
현재 CNN은 전이 학습과 결합되어 의료 영상, 자율주행, 제조 품질 검사 등 다양한 산업 문제를 해결하는 핵심 기반으로 활용됩니다.