머신러닝의 주요 유형

머신러닝은 크게 세 가지 유형으로 나뉩니다.

  • 지도 학습 (Supervised Learning): 정답(레이블)이 있는 데이터를 사용해 학습합니다. 주어진 데이터와 그에 해당하는 정답을 함께 학습시켜 새로운 데이터에 대한 결과를 예측합니다.
  • 비지도 학습 (Unsupervised Learning): 정답(레이블)이 없는 데이터를 사용해 학습합니다. 데이터의 숨겨진 패턴이나 구조를 스스로 파악하고 데이터를 묶거나 정리하는 데 사용됩니다.
  • 강화 학습 (Reinforcement Learning): 어떤 환경에서 보상과 벌칙을 받으며 스스로 최적의 행동을 학습하는 방식입니다.

지도 학습과 비지도 학습의 핵심 차이: 정답(레이블)의 유무

정답(레이블)은 머신러닝 모델이 맞춰야 할 최종 목표 값입니다.

구분 지도 학습 (Supervised Learning) 비지도 학습 (Unsupervised Learning)
정답 유무 있음 (출력값 Y가 존재) 없음 (출력값 Y가 존재하지 않음)
목적 입력값(X)과 출력값(Y)의 관계를 파악해 미래의 Y를 예측 입력값(X)들 간의 관계나 패턴을 파악해 데이터의 구조를 이해
예시 집의 크기, 층수(X)를 보고 집값(Y) 예측 고객의 구매 내역, 방문 횟수(X)를 보고 VIP 고객 집단 분류
코딩적 표현 X와 Y의 관계를 학습 X들 간의 관계를 학습

지도 학습 문제의 두 가지 종류

지도 학습으로 풀 수 있는 문제 유형은 예측하려는 결과값의 형태에 따라 크게 두 가지로 나뉩니다.

회귀 (Regression)

결과값이 연속적인 실수값(예: 온도, 가격, 매출액 등)인 문제입니다.

  • 예시: 집의 평수, 방의 개수를 바탕으로 집값을 예측

분류 (Classification)

결과값이 이산적이고 불연속적인 범주형 값(예: 스팸/스팸 아님, 정상/암, 고객 이탈/유지)인 문제입니다.

  • 예시: 메일 내용, 발신자를 바탕으로 스팸 메일 여부를 판단

회귀(Regression) 모델 예시

문제: 부동산 데이터를 활용한 집값 예측

  • 입력 변수 (X): 평수, 층수, 건축 연도 등
  • 출력 변수 (Y): 실제 집값 (숫자)

문제: 날씨 데이터를 활용한 온도 예측

  • 입력 변수 (X): 습도, 풍속, 기압 등
  • 출력 변수 (Y): 예상 기온 (숫자)

분류(Classification) 모델 예시

문제: 스팸 메일 분류

  • 입력 변수 (X): 메일의 단어, 발신자 정보 등
  • 출력 변수 (Y): 스팸(1) 또는 스팸 아님(0)

문제: 고객 이탈 예측

  • 입력 변수 (X): 고객의 나이, 이용 금액, 로그인 횟수 등
  • 출력 변수 (Y): 이탈한다(1) 또는 이탈하지 않는다(0)

문제: 이미지 분류

  • 입력 변수 (X): 강아지나 고양이 사진 데이터
  • 출력 변수 (Y): 강아지 또는 고양이