편향(Bias)과 분산(Variance): 의미, 중요성, 활용법
모델도 사람처럼 고집(편향)과 예민함(분산)이 있습니다. 한쪽만 커지면 예측 성능이 흔들립니다.
1) 편향(Bias): 현실을 단순화한 고정관념
- 정의: 모델이 실제 세계의 복잡함을 과하게 단순화할 때 생기는 체계적 오차
- 증상: 예측이 한쪽 방향으로 일관되게 빗나감(훈련/검증 모두 성능 저조)
- 원인: 모델 용량 부족, 중요한 변수/비선형성 누락, 전처리/특성공학 미흡
- 결과: 과소적합(Underfitting)
2) 분산(Variance): 데이터에 과민반응하는 예민함
- 정의: 훈련셋이 바뀔 때 예측이 크게 출렁이는 정도
- 증상: 훈련 성능은 매우 높지만 검증/테스트에서 급락
- 원인: 모델 용량 과다, 정규화 부족, 데이터 적음/노이즈 큼
- 결과: 과적합(Overfitting)
3) 왜 중요한가? 일반화 오차 분해
모델 목표는 새 데이터에서도 잘 맞추는 것입니다(일반화).
[ y=f(x)+\varepsilon,\quad \mathbb{E}[\varepsilon]=0,\quad \mathrm{Var}(\varepsilon)=\sigma^2 ]
학습셋 (D)로 학습한 예측함수 (\hat{f}(x;D))에 대해, 특정 (x)에서의 기댓제곱오차는:
[ \mathbb{E}_D[(\hat{f}(x;D)-f(x))^2] = \left(\mathbb{E}_D[\hat{f}(x;D)]-f(x)\right)^2 + \mathrm{Var}_D(\hat{f}(x;D)) + \sigma^2 ]
- 편향²: 체계적 빗나감
- 분산: 학습셋 변화에 따른 불안정성
- (\sigma^2): 줄일 수 없는 비가역 노이즈
핵심은 편향과 분산의 균형입니다.
4) 편향-분산 트레이드오프
- 모델 복잡도 증가: 편향 감소, 분산 증가
- 모델 복잡도 감소: 편향 증가, 분산 감소
이 균형을 조절하는 수단:
- 정규화(Regularization)
- 데이터 양/품질
- 특성공학
- 모델 선택
5) 실무 체크리스트: 증상-진단-처방
고편향(과소적합)
- 신호: Train 낮음 + Val 낮음
- 원인: 모델 단순, 특징 부족
- 처방: 모델 용량 증가, 비선형/교호작용 추가, 정규화 완화((\alpha \downarrow)), 학습 충분히 진행
고분산(과적합)
- 신호: Train 매우 높음 + Val 낮음
- 원인: 모델 과복잡, 규제 약함
- 처방: 정규화 강화((\alpha \uparrow)), 드롭아웃/가지치기, 데이터 증강/수집, 조기종료, 교차검증
불안정 추정
- 신호: Fold별 점수 편차 큼
- 원인: 데이터 부족/노이즈 큼
- 처방: K-Fold/Repeated CV, 누락/불균형 처리, 강건 손실(Huber 등)
6) 정규화가 균형을 잡는 방법
L2 (Ridge)
- 가중치 제곱합 페널티
- 효과: 분산 감소(안정화), 대신 편향 증가 가능
L1 (Lasso)
- 가중치 절댓값 페널티
- 효과: 희소화(변수 선택), 분산 감소, 해석력 향상
Elastic Net
- L1 + L2 혼합
- 효과: 변수 선택 + 안정성 절충
(\alpha) (규제 강도)
- (\alpha \uparrow): 규제 강함 → 분산↓, 편향↑
- (\alpha \downarrow): 규제 약함 → 분산↑, 편향↓
예시(L2 선형회귀):
[ \min_{\mathbf{w}}\ \frac{1}{n}\sum_{i=1}^{n}(y_i-\mathbf{x}_i^\top\mathbf{w})^2+\alpha|\mathbf{w}|_2^2 ]
7) 어떻게 사용하나? 실전 운영 가이드
1. 학습/검증 곡선으로 스크리닝
- Learning Curve:
- Train/Val 둘 다 높고 가까움 → 고편향
- Train 낮고 Val 높게 벌어짐 → 고분산
- Validation Curve:
- 모델 복잡도(깊이, (\alpha) 등)별 점수 비교로 최적 복잡도 탐색
2. 교차검증으로 안정성 확인
- K-Fold / Repeated K-Fold 평균+표준편차 확인
- Fold 편차가 크면 고분산 또는 데이터 부족 신호
3. 정규화/모델/특성공학 동시 튜닝
- (\alpha), 모델 깊이/트리 수, 드롭아웃, 데이터 증강, 파생변수
- Grid/Random/Bayesian Search + CV로 균형점 탐색
4. 데이터 전략
- 더 많은/다양한 데이터 확보 → 분산 감소
- 이상치/누락치 정리 → 왜곡 감소
- 레이블 오류 감소 → 비가역 노이즈 상한 개선
5. 문제 지표에 맞춘 판정
- 예: RMSLE를 쓰는 수요예측은 작은 수요 구간 상대오차에 민감
- 특정 구간 과적합이 생기지 않게 정규화와 단순화의 균형 유지
8) 한눈 정리
- 편향(Bias): 체계적 오류, 단순 모델, 과소적합
- 분산(Variance): 불안정성, 복잡 모델, 과적합
- 핵심: 정규화·데이터·특성·복잡도 조절로 균형점 찾기
- 도구: 학습/검증곡선, K-Fold, 하이퍼파라미터 탐색