딥러닝 모델 성능은 데이터 품질뿐 아니라 하이퍼파라미터(Hyperparameter) 설정에 크게 좌우됩니다.
하이퍼파라미터는 모델이 학습으로 얻는 가중치와 달리, 사람이 사전에 정하는 값입니다.

하이퍼파라미터의 역할과 중요성

  • 학습 속도/안정성/최종 성능을 직접 제어
  • 잘 설정하면 빠르고 안정적으로 최적점에 수렴
  • 잘못 설정하면 학습 불안정, 과적합, 성능 저하 유발

꼭 알아야 할 주요 하이퍼파라미터 7가지

1. 학습률 (Learning Rate)

  • 가중치 업데이트 크기를 결정하는 핵심 값
  • 너무 큼: 최적점을 지나치는 오버슈팅
  • 너무 작음: 수렴이 매우 느림

2. 가중치 초기값 (Initial Weight Values)

  • 학습 시작점 품질을 좌우
  • 부적절하면 기울기 소실/폭주 위험 증가
  • 대표 초기화: Xavier, He

3. 활성화 함수 (Activation Function)

  • 신경망에 비선형성 부여
  • Sigmoid/Tanh는 깊은 네트워크에서 기울기 소실 가능
  • 실무에서는 ReLU 계열이 널리 사용됨

4. 최적화 알고리즘 (Optimizer)

  • 가중치를 어떤 방식으로 갱신할지 결정
  • 대표: GD, SGD, Adam
  • 학습 안정성/속도/일반화에 영향

5. 드롭아웃 비율 (Dropout Rate)

  • 학습 중 일부 뉴런을 무작위 비활성화
  • 특정 뉴런 과의존을 줄여 과적합 완화
  • 비율이 너무 크면 학습 정보 손실 가능

6. 배치 사이즈 (Batch Size)

  • 한 번의 업데이트에 사용하는 샘플 수
  • 보통 32/64/128 등 2의 거듭제곱 사용
  • 학습 속도, 메모리 사용량, 일반화 성능에 영향

7. 네트워크 구조 (Network Architecture)

모델 구조 자체도 핵심 하이퍼파라미터입니다. 특히 CNN에서 중요합니다.

  • 커널 크기(Kernel Size): 특징 추출 필터 크기(예: 3x3)
  • 스트라이드(Stride): 필터 이동 간격
  • 패딩(Padding): 경계 정보 손실 보완

정리

딥러닝 성능 최적화의 핵심은 모델 구조와 학습 전략을 구성하는 하이퍼파라미터를 체계적으로 조정하는 것입니다.
학습률, 초기화, 활성화 함수, 옵티마이저, 드롭아웃, 배치 사이즈, 네트워크 구조를 함께 설계해야 안정적이고 높은 성능을 얻을 수 있습니다.