1. 손실 함수의 본질

머신러닝의 핵심 목표는 “예측을 잘하게 만드는 것”입니다.
그런데 “잘한다”를 수학적으로 어떻게 표현할 수 있을까요?

바로 손실 함수(Loss Function)가 그 기준점입니다.
손실 함수는 모델이 예측한 값과 실제 값의 차이를 숫자로 정량화한 오차 측정기입니다.

  • 손실 함수가 크다: 모델이 많이 틀림
  • 손실 함수가 작다: 모델이 잘 맞춤

즉, 손실 함수는 모델 학습의 나침반(Compass) 역할을 합니다.

2. 미분학과 경사하강법: 언덕에서 공 굴리기 비유

손실 함수를 최소화하려면, 언덕에서 가장 낮은 골짜기(최적점)를 찾아야 합니다. 이때 필요한 수학 도구가 미분(Differentiation)입니다.

  • 미분: 기울기(변화율), 함수가 얼마나 가파르게 변하는지 알려줌
  • 편미분: 여러 변수 각각에 대한 기울기, 가중치가 여러 개일 때 필수

모델은 이 기울기를 이용해서 손실이 줄어드는 방향으로 파라미터(가중치)를 업데이트합니다.
이것이 바로 경사하강법(Gradient Descent)입니다.

3. 회귀 모델의 손실 함수

선형 회귀 (Linear Regression)

  • 손실 함수: MSE(Mean Squared Error)
  • 이유: 오차를 제곱해서 큰 오차에 더 큰 페널티를 줌
  • 최적화: 미분 가능하고 볼록(convex) 함수이므로 전역 최적해(global minimum)를 비교적 쉽게 찾을 수 있음

회귀 평가 지표와 손실 함수의 차이

  • 학습할 때는 MSE 같은 손실 함수를 사용
  • 모델을 평가할 때는 MAE, RMSE, R² 등을 활용

비유하면, 손실 함수는 “목표 맛과의 차이”, 평가 지표는 “손님 만족도 점수”에 가깝습니다.

4. 분류 모델의 손실 함수

로지스틱 회귀 (Logistic Regression)

단순히 MSE를 쓰면 곡선이 휘어져 학습이 잘 안 될 수 있으므로, 보통 교차 엔트로피 손실(Cross Entropy Loss)을 사용합니다.

[ -y \log(h_\theta(x)) - (1-y)\log(1-h_\theta(x)) ]

해석:

  • 정답이 1일 때: 예측 확률이 1에 가까울수록 손실이 작아짐
  • 정답이 0일 때: 예측 확률이 0에 가까울수록 손실이 작아짐

즉, 확률을 잘 맞출수록 손실이 작아지고 틀리면 큰 페널티를 받는 구조입니다.

5. 정규화와 손실 함수

손실 함수는 오차를 줄이는 것뿐 아니라, 모델이 과적합(Overfitting)하지 않도록 제어할 수 있습니다. 이때 사용하는 방법이 정규화(Regularization)입니다.

L1 정규화 (Lasso)

  • 손실 함수에 가중치 절댓값 합을 추가
  • 일부 계수를 0으로 만들어 변수 선택(Feature Selection) 효과 발생

L2 정규화 (Ridge)

  • 손실 함수에 가중치 제곱합을 추가
  • 계수를 0에 가깝게 줄이되 완전히 제거하지는 않음

정규화 강도 (α, λ)

  • 값이 크면 모델이 단순해짐
  • 값이 작으면 모델이 복잡해짐
  • 너무 크면 언더피팅, 너무 작으면 과적합

6. 왜 손실 함수가 중요한가?

  • 학습의 기준점: 손실 함수 없이는 모델이 어떤 방향으로 학습해야 하는지 알 수 없음
  • 최적화의 출발점: 미분, 경사하강법 등 학습 알고리즘의 기반
  • 일반화 성능 결정: 정규화 포함 손실 함수 설계가 과적합/언더피팅에 직접 영향
  • 비즈니스 목표 반영: 문제 상황에 맞는 커스텀 손실 함수 설계 가능

결론적으로, 손실 함수는 머신러닝 모델의 심장이라고 볼 수 있습니다.

한 줄 요약

손실 함수는 모델의 틀림 정도를 수학적으로 정의한 기준이며, 미분과 경사하강법으로 최소화됩니다. 선형 회귀는 MSE, 로지스틱 회귀는 크로스 엔트로피를 주로 사용하며, L1/L2 정규화로 일반화 성능을 높일 수 있습니다.


농담 한 스푼: 모델은 손실을 줄이려고 애쓰는데, 통장은 왜 손실만 늘어나는 걸까요?