머신러닝의 주요 유형
머신러닝의 주요 유형
머신러닝은 크게 세 가지 유형으로 나뉩니다.
- 지도 학습 (Supervised Learning): 정답(레이블)이 있는 데이터를 사용해 학습합니다. 주어진 데이터와 그에 해당하는 정답을 함께 학습시켜 새로운 데이터에 대한 결과를 예측합니다.
- 비지도 학습 (Unsupervised Learning): 정답(레이블)이 없는 데이터를 사용해 학습합니다. 데이터의 숨겨진 패턴이나 구조를 스스로 파악하고 데이터를 묶거나 정리하는 데 사용됩니다.
- 강화 학습 (Reinforcement Learning): 어떤 환경에서 보상과 벌칙을 받으며 스스로 최적의 행동을 학습하는 방식입니다.
지도 학습과 비지도 학습의 핵심 차이: 정답(레이블)의 유무
정답(레이블)은 머신러닝 모델이 맞춰야 할 최종 목표 값입니다.
| 구분 | 지도 학습 (Supervised Learning) | 비지도 학습 (Unsupervised Learning) |
|---|---|---|
| 정답 유무 | 있음 (출력값 Y가 존재) | 없음 (출력값 Y가 존재하지 않음) |
| 목적 | 입력값(X)과 출력값(Y)의 관계를 파악해 미래의 Y를 예측 | 입력값(X)들 간의 관계나 패턴을 파악해 데이터의 구조를 이해 |
| 예시 | 집의 크기, 층수(X)를 보고 집값(Y) 예측 | 고객의 구매 내역, 방문 횟수(X)를 보고 VIP 고객 집단 분류 |
| 코딩적 표현 | X와 Y의 관계를 학습 | X들 간의 관계를 학습 |
지도 학습 문제의 두 가지 종류
지도 학습으로 풀 수 있는 문제 유형은 예측하려는 결과값의 형태에 따라 크게 두 가지로 나뉩니다.
회귀 (Regression)
결과값이 연속적인 실수값(예: 온도, 가격, 매출액 등)인 문제입니다.
- 예시: 집의 평수, 방의 개수를 바탕으로 집값을 예측
분류 (Classification)
결과값이 이산적이고 불연속적인 범주형 값(예: 스팸/스팸 아님, 정상/암, 고객 이탈/유지)인 문제입니다.
- 예시: 메일 내용, 발신자를 바탕으로 스팸 메일 여부를 판단
회귀(Regression) 모델 예시
문제: 부동산 데이터를 활용한 집값 예측
- 입력 변수 (X): 평수, 층수, 건축 연도 등
- 출력 변수 (Y): 실제 집값 (숫자)
문제: 날씨 데이터를 활용한 온도 예측
- 입력 변수 (X): 습도, 풍속, 기압 등
- 출력 변수 (Y): 예상 기온 (숫자)
분류(Classification) 모델 예시
문제: 스팸 메일 분류
- 입력 변수 (X): 메일의 단어, 발신자 정보 등
- 출력 변수 (Y): 스팸(1) 또는 스팸 아님(0)
문제: 고객 이탈 예측
- 입력 변수 (X): 고객의 나이, 이용 금액, 로그인 횟수 등
- 출력 변수 (Y): 이탈한다(1) 또는 이탈하지 않는다(0)
문제: 이미지 분류
- 입력 변수 (X): 강아지나 고양이 사진 데이터
- 출력 변수 (Y): 강아지 또는 고양이