지도학습에서 앙상블까지: 모델 발전 흐름

머신러닝에서 가장 기본적이면서 중요한 분야 중 하나가 지도학습(Supervised Learning)입니다.
지도학습은 입력 데이터와 정답(label)의 관계를 학습해, 새로운 입력의 출력을 예측하는 방식입니다.

예시:

스팸 메일 분류
주택 가격 예측
고객 이탈 예측

1. CART (Classification And Regression Tree)

CART는 결정 트리를 구축하는 대표 알고리즘입니다.

이진 분할을 반복해 불순도를 줄이는 방향으로 학습
장점: 직관적이고 해석이 쉬움
한계: 과적합(Overfitting)에 취약

2. 결정 트리 (Decision Tree)

CART 같은 알고리즘으로 구축되는 트리 모델입니다.

분류/회귀 모두 가능
시각화와 해석력 우수
단일 트리는 데이터 변화에 민감하고 성능 편차가 큼

3. 앙상블 학습 (Ensemble Learning)

단일 트리의 약점을 보완하기 위해 나온 접근입니다.

여러 약한 학습기를 결합해 강한 학습기 생성
일반적으로 성능 향상 + 과적합 완화

대표 방식 4가지:

(1) Voting

서로 다른 모델 예측을 결합
분류: 다수결, 회귀: 평균
가장 단순한 앙상블

(2) Bagging

부트스트랩 샘플링으로 데이터 재추출
여러 모델을 병렬 학습
대표: Random Forest

(3) Boosting

모델을 순차 학습
이전 모델이 틀린 샘플을 다음 모델이 보완
대표: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost

(4) Stacking

여러 베이스 모델의 예측을 모아
메타 모델이 최종 예측을 학습
다양한 모델 장점을 결합 가능

전체 흐름 요약

지도학습 안에서 모델 발전 흐름은 다음과 같이 볼 수 있습니다.

CART → 결정 트리 → 앙상블 → (보팅, 배깅, 부스팅, 스태킹)

즉, 단일 트리에서 시작해 여러 모델을 결합하는 방향으로 발전하면서 더 강하고 안정적인 성능을 확보하게 됩니다.

결론

머신러닝을 이해할 때는 단일 모델에서 앙상블로 확장되는 흐름을 잡는 것이 중요합니다.
이 흐름을 이해하면, 왜 실무에서 XGBoost/LightGBM 같은 부스팅 계열 모델이 자주 선택되는지 자연스럽게 연결됩니다.