모델도 사람처럼 고집(편향)예민함(분산)이 있습니다. 한쪽만 커지면 예측 성능이 흔들립니다.

1) 편향(Bias): 현실을 단순화한 고정관념

  • 정의: 모델이 실제 세계의 복잡함을 과하게 단순화할 때 생기는 체계적 오차
  • 증상: 예측이 한쪽 방향으로 일관되게 빗나감(훈련/검증 모두 성능 저조)
  • 원인: 모델 용량 부족, 중요한 변수/비선형성 누락, 전처리/특성공학 미흡
  • 결과: 과소적합(Underfitting)

2) 분산(Variance): 데이터에 과민반응하는 예민함

  • 정의: 훈련셋이 바뀔 때 예측이 크게 출렁이는 정도
  • 증상: 훈련 성능은 매우 높지만 검증/테스트에서 급락
  • 원인: 모델 용량 과다, 정규화 부족, 데이터 적음/노이즈 큼
  • 결과: 과적합(Overfitting)

3) 왜 중요한가? 일반화 오차 분해

모델 목표는 새 데이터에서도 잘 맞추는 것입니다(일반화).

[ y=f(x)+\varepsilon,\quad \mathbb{E}[\varepsilon]=0,\quad \mathrm{Var}(\varepsilon)=\sigma^2 ]

학습셋 (D)로 학습한 예측함수 (\hat{f}(x;D))에 대해, 특정 (x)에서의 기댓제곱오차는:

[ \mathbb{E}_D[(\hat{f}(x;D)-f(x))^2] = \left(\mathbb{E}_D[\hat{f}(x;D)]-f(x)\right)^2 + \mathrm{Var}_D(\hat{f}(x;D)) + \sigma^2 ]

  • 편향²: 체계적 빗나감
  • 분산: 학습셋 변화에 따른 불안정성
  • (\sigma^2): 줄일 수 없는 비가역 노이즈

핵심은 편향과 분산의 균형입니다.

4) 편향-분산 트레이드오프

  • 모델 복잡도 증가: 편향 감소, 분산 증가
  • 모델 복잡도 감소: 편향 증가, 분산 감소

이 균형을 조절하는 수단:

  • 정규화(Regularization)
  • 데이터 양/품질
  • 특성공학
  • 모델 선택

5) 실무 체크리스트: 증상-진단-처방

고편향(과소적합)

  • 신호: Train 낮음 + Val 낮음
  • 원인: 모델 단순, 특징 부족
  • 처방: 모델 용량 증가, 비선형/교호작용 추가, 정규화 완화((\alpha \downarrow)), 학습 충분히 진행

고분산(과적합)

  • 신호: Train 매우 높음 + Val 낮음
  • 원인: 모델 과복잡, 규제 약함
  • 처방: 정규화 강화((\alpha \uparrow)), 드롭아웃/가지치기, 데이터 증강/수집, 조기종료, 교차검증

불안정 추정

  • 신호: Fold별 점수 편차 큼
  • 원인: 데이터 부족/노이즈 큼
  • 처방: K-Fold/Repeated CV, 누락/불균형 처리, 강건 손실(Huber 등)

6) 정규화가 균형을 잡는 방법

L2 (Ridge)

  • 가중치 제곱합 페널티
  • 효과: 분산 감소(안정화), 대신 편향 증가 가능

L1 (Lasso)

  • 가중치 절댓값 페널티
  • 효과: 희소화(변수 선택), 분산 감소, 해석력 향상

Elastic Net

  • L1 + L2 혼합
  • 효과: 변수 선택 + 안정성 절충

(\alpha) (규제 강도)

  • (\alpha \uparrow): 규제 강함 → 분산↓, 편향↑
  • (\alpha \downarrow): 규제 약함 → 분산↑, 편향↓

예시(L2 선형회귀):

[ \min_{\mathbf{w}}\ \frac{1}{n}\sum_{i=1}^{n}(y_i-\mathbf{x}_i^\top\mathbf{w})^2+\alpha|\mathbf{w}|_2^2 ]

7) 어떻게 사용하나? 실전 운영 가이드

1. 학습/검증 곡선으로 스크리닝

  • Learning Curve:
    • Train/Val 둘 다 높고 가까움 → 고편향
    • Train 낮고 Val 높게 벌어짐 → 고분산
  • Validation Curve:
    • 모델 복잡도(깊이, (\alpha) 등)별 점수 비교로 최적 복잡도 탐색

2. 교차검증으로 안정성 확인

  • K-Fold / Repeated K-Fold 평균+표준편차 확인
  • Fold 편차가 크면 고분산 또는 데이터 부족 신호

3. 정규화/모델/특성공학 동시 튜닝

  • (\alpha), 모델 깊이/트리 수, 드롭아웃, 데이터 증강, 파생변수
  • Grid/Random/Bayesian Search + CV로 균형점 탐색

4. 데이터 전략

  • 더 많은/다양한 데이터 확보 → 분산 감소
  • 이상치/누락치 정리 → 왜곡 감소
  • 레이블 오류 감소 → 비가역 노이즈 상한 개선

5. 문제 지표에 맞춘 판정

  • 예: RMSLE를 쓰는 수요예측은 작은 수요 구간 상대오차에 민감
  • 특정 구간 과적합이 생기지 않게 정규화와 단순화의 균형 유지

8) 한눈 정리

  • 편향(Bias): 체계적 오류, 단순 모델, 과소적합
  • 분산(Variance): 불안정성, 복잡 모델, 과적합
  • 핵심: 정규화·데이터·특성·복잡도 조절로 균형점 찾기
  • 도구: 학습/검증곡선, K-Fold, 하이퍼파라미터 탐색