편향(Bias)과 분산(Variance): 의미, 중요성, 활용법

모델도 사람처럼 고집(편향)과 예민함(분산)이 있습니다. 한쪽만 커지면 예측 성능이 흔들립니다.

1) 편향(Bias): 현실을 단순화한 고정관념

정의: 모델이 실제 세계의 복잡함을 과하게 단순화할 때 생기는 체계적 오차
증상: 예측이 한쪽 방향으로 일관되게 빗나감(훈련/검증 모두 성능 저조)
원인: 모델 용량 부족, 중요한 변수/비선형성 누락, 전처리/특성공학 미흡
결과: 과소적합(Underfitting)

2) 분산(Variance): 데이터에 과민반응하는 예민함

정의: 훈련셋이 바뀔 때 예측이 크게 출렁이는 정도
증상: 훈련 성능은 매우 높지만 검증/테스트에서 급락
원인: 모델 용량 과다, 정규화 부족, 데이터 적음/노이즈 큼
결과: 과적합(Overfitting)

3) 왜 중요한가? 일반화 오차 분해

모델 목표는 새 데이터에서도 잘 맞추는 것입니다(일반화).

[ y=f(x)+\varepsilon,\quad \mathbb{E}[\varepsilon]=0,\quad \mathrm{Var}(\varepsilon)=\sigma^2 ]

학습셋 (D)로 학습한 예측함수 (\hat{f}(x;D))에 대해, 특정 (x)에서의 기댓제곱오차는:

[ \mathbb{E}_D[(\hat{f}(x;D)-f(x))^2] = \left(\mathbb{E}_D[\hat{f}(x;D)]-f(x)\right)^2 + \mathrm{Var}_D(\hat{f}(x;D)) + \sigma^2 ]

편향²: 체계적 빗나감
분산: 학습셋 변화에 따른 불안정성
(\sigma^2): 줄일 수 없는 비가역 노이즈

핵심은 편향과 분산의 균형입니다.

4) 편향-분산 트레이드오프

모델 복잡도 증가: 편향 감소, 분산 증가
모델 복잡도 감소: 편향 증가, 분산 감소

이 균형을 조절하는 수단:

정규화(Regularization)
데이터 양/품질
특성공학
모델 선택

5) 실무 체크리스트: 증상-진단-처방

고편향(과소적합)

신호: Train 낮음 + Val 낮음
원인: 모델 단순, 특징 부족
처방: 모델 용량 증가, 비선형/교호작용 추가, 정규화 완화((\alpha \downarrow)), 학습 충분히 진행

고분산(과적합)

신호: Train 매우 높음 + Val 낮음
원인: 모델 과복잡, 규제 약함
처방: 정규화 강화((\alpha \uparrow)), 드롭아웃/가지치기, 데이터 증강/수집, 조기종료, 교차검증

불안정 추정

신호: Fold별 점수 편차 큼
원인: 데이터 부족/노이즈 큼
처방: K-Fold/Repeated CV, 누락/불균형 처리, 강건 손실(Huber 등)

6) 정규화가 균형을 잡는 방법

L2 (Ridge)

가중치 제곱합 페널티
효과: 분산 감소(안정화), 대신 편향 증가 가능

L1 (Lasso)

가중치 절댓값 페널티
효과: 희소화(변수 선택), 분산 감소, 해석력 향상

Elastic Net

L1 + L2 혼합
효과: 변수 선택 + 안정성 절충

(\alpha) (규제 강도)

(\alpha \uparrow): 규제 강함 → 분산↓, 편향↑
(\alpha \downarrow): 규제 약함 → 분산↑, 편향↓

예시(L2 선형회귀):

[ \min_{\mathbf{w}}\ \frac{1}{n}\sum_{i=1}^{n}(y_i-\mathbf{x}_i^\top\mathbf{w})^2+\alpha|\mathbf{w}|_2^2 ]

7) 어떻게 사용하나? 실전 운영 가이드

1. 학습/검증 곡선으로 스크리닝

Learning Curve:
- Train/Val 둘 다 높고 가까움 → 고편향
- Train 낮고 Val 높게 벌어짐 → 고분산
Validation Curve:
- 모델 복잡도(깊이, (\alpha) 등)별 점수 비교로 최적 복잡도 탐색

2. 교차검증으로 안정성 확인

K-Fold / Repeated K-Fold 평균+표준편차 확인
Fold 편차가 크면 고분산 또는 데이터 부족 신호

3. 정규화/모델/특성공학 동시 튜닝

(\alpha), 모델 깊이/트리 수, 드롭아웃, 데이터 증강, 파생변수
Grid/Random/Bayesian Search + CV로 균형점 탐색

4. 데이터 전략

더 많은/다양한 데이터 확보 → 분산 감소
이상치/누락치 정리 → 왜곡 감소
레이블 오류 감소 → 비가역 노이즈 상한 개선

5. 문제 지표에 맞춘 판정

예: RMSLE를 쓰는 수요예측은 작은 수요 구간 상대오차에 민감
특정 구간 과적합이 생기지 않게 정규화와 단순화의 균형 유지

8) 한눈 정리

편향(Bias): 체계적 오류, 단순 모델, 과소적합
분산(Variance): 불안정성, 복잡 모델, 과적합
핵심: 정규화·데이터·특성·복잡도 조절로 균형점 찾기
도구: 학습/검증곡선, K-Fold, 하이퍼파라미터 탐색