지도학습에서 앙상블까지: 모델 발전 흐름
머신러닝에서 가장 기본적이면서 중요한 분야 중 하나가 지도학습(Supervised Learning)입니다.
지도학습은 입력 데이터와 정답(label)의 관계를 학습해, 새로운 입력의 출력을 예측하는 방식입니다.
예시:
- 스팸 메일 분류
- 주택 가격 예측
- 고객 이탈 예측
1. CART (Classification And Regression Tree)
CART는 결정 트리를 구축하는 대표 알고리즘입니다.
- 이진 분할을 반복해 불순도를 줄이는 방향으로 학습
- 장점: 직관적이고 해석이 쉬움
- 한계: 과적합(Overfitting)에 취약
2. 결정 트리 (Decision Tree)
CART 같은 알고리즘으로 구축되는 트리 모델입니다.
- 분류/회귀 모두 가능
- 시각화와 해석력 우수
- 단일 트리는 데이터 변화에 민감하고 성능 편차가 큼
3. 앙상블 학습 (Ensemble Learning)
단일 트리의 약점을 보완하기 위해 나온 접근입니다.
- 여러 약한 학습기를 결합해 강한 학습기 생성
- 일반적으로 성능 향상 + 과적합 완화
대표 방식 4가지:
(1) Voting
- 서로 다른 모델 예측을 결합
- 분류: 다수결, 회귀: 평균
- 가장 단순한 앙상블
(2) Bagging
- 부트스트랩 샘플링으로 데이터 재추출
- 여러 모델을 병렬 학습
- 대표: Random Forest
(3) Boosting
- 모델을 순차 학습
- 이전 모델이 틀린 샘플을 다음 모델이 보완
- 대표: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost
(4) Stacking
- 여러 베이스 모델의 예측을 모아
- 메타 모델이 최종 예측을 학습
- 다양한 모델 장점을 결합 가능
전체 흐름 요약
지도학습 안에서 모델 발전 흐름은 다음과 같이 볼 수 있습니다.
CART → 결정 트리 → 앙상블 → (보팅, 배깅, 부스팅, 스태킹)
즉, 단일 트리에서 시작해 여러 모델을 결합하는 방향으로 발전하면서 더 강하고 안정적인 성능을 확보하게 됩니다.
결론
머신러닝을 이해할 때는 단일 모델에서 앙상블로 확장되는 흐름을 잡는 것이 중요합니다.
이 흐름을 이해하면, 왜 실무에서 XGBoost/LightGBM 같은 부스팅 계열 모델이 자주 선택되는지 자연스럽게 연결됩니다.