머신러닝에서 가장 기본적이면서 중요한 분야 중 하나가 지도학습(Supervised Learning)입니다.
지도학습은 입력 데이터와 정답(label)의 관계를 학습해, 새로운 입력의 출력을 예측하는 방식입니다.

예시:

  • 스팸 메일 분류
  • 주택 가격 예측
  • 고객 이탈 예측

1. CART (Classification And Regression Tree)

CART는 결정 트리를 구축하는 대표 알고리즘입니다.

  • 이진 분할을 반복해 불순도를 줄이는 방향으로 학습
  • 장점: 직관적이고 해석이 쉬움
  • 한계: 과적합(Overfitting)에 취약

2. 결정 트리 (Decision Tree)

CART 같은 알고리즘으로 구축되는 트리 모델입니다.

  • 분류/회귀 모두 가능
  • 시각화와 해석력 우수
  • 단일 트리는 데이터 변화에 민감하고 성능 편차가 큼

3. 앙상블 학습 (Ensemble Learning)

단일 트리의 약점을 보완하기 위해 나온 접근입니다.

  • 여러 약한 학습기를 결합해 강한 학습기 생성
  • 일반적으로 성능 향상 + 과적합 완화

대표 방식 4가지:

(1) Voting

  • 서로 다른 모델 예측을 결합
  • 분류: 다수결, 회귀: 평균
  • 가장 단순한 앙상블

(2) Bagging

  • 부트스트랩 샘플링으로 데이터 재추출
  • 여러 모델을 병렬 학습
  • 대표: Random Forest

(3) Boosting

  • 모델을 순차 학습
  • 이전 모델이 틀린 샘플을 다음 모델이 보완
  • 대표: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost

(4) Stacking

  • 여러 베이스 모델의 예측을 모아
  • 메타 모델이 최종 예측을 학습
  • 다양한 모델 장점을 결합 가능

전체 흐름 요약

지도학습 안에서 모델 발전 흐름은 다음과 같이 볼 수 있습니다.

CART → 결정 트리 → 앙상블 → (보팅, 배깅, 부스팅, 스태킹)

즉, 단일 트리에서 시작해 여러 모델을 결합하는 방향으로 발전하면서 더 강하고 안정적인 성능을 확보하게 됩니다.

결론

머신러닝을 이해할 때는 단일 모델에서 앙상블로 확장되는 흐름을 잡는 것이 중요합니다.
이 흐름을 이해하면, 왜 실무에서 XGBoost/LightGBM 같은 부스팅 계열 모델이 자주 선택되는지 자연스럽게 연결됩니다.