데이터 분석에서는 변수가 많아질수록 계산량과 해석 난이도가 크게 올라갑니다.
이럴 때 차원을 줄이거나, 변수 뒤에 숨은 구조를 찾는 대표 기법이 PCA(주성분 분석)요인 분석(Factor Analysis)입니다.

1. 주성분 분석(PCA)

1) 목적

PCA의 핵심 목적은 정보 손실을 최소화하면서 차원을 축소하는 것입니다.
기존 변수를 새로운 축(주성분)으로 변환해 데이터를 더 간결하게 표현합니다.

2) 원리

  • 분산 최대화: 데이터가 가장 넓게 퍼진 방향을 주성분으로 선택
  • 공분산 행렬: 변수 간 관계를 수치화
  • 고유값/고유벡터: 분산이 큰 방향(고유벡터)과 크기(고유값)로 축 정의
  • 선형 변환: 원 데이터를 주성분 좌표계로 투영
  • 오류 최소화: 투영 시 발생하는 손실(잔차)을 최소화

3) 활용 시점

  • 변수 수가 너무 많아 계산 비용이 클 때
  • 2D/3D 시각화가 필요할 때
  • 다중공선성(서로 비슷한 변수 다수)이 문제일 때

2. 요인 분석(Factor Analysis)

1) 목적

요인 분석의 목적은 단순 축소가 아니라, 관측 변수 뒤에 있는 잠재 요인(latent factor)을 찾는 것입니다.

2) 예시

만족도 설문에서:

  • “직원이 친절했다”
  • “대기 시간이 짧았다”
  • “매장이 청결했다”

이 항목들이 실제로는 공통된 서비스 요인을 반영할 수 있습니다.
반면 “상품이 다양했다”는 제품 요인에 더 가까울 수 있습니다.

요인 분석은 이런 숨은 구조를 설명하는 데 강합니다.

3. PCA와 요인 분석 차이

구분 PCA 요인 분석
목적 차원 축소, 정보 보존 잠재 요인 발견
중점 분산 최대화 상관구조 설명
접근 수학적 변환(고유값/고유벡터) 통계적 잠재요인 모델링
활용 시각화, 다중공선성 완화 설문/심리/사회 데이터 구조 해석

4. 정리

  • PCA: 데이터를 압축해 효율적으로 표현하는 데 적합
  • 요인 분석: 변수 뒤의 의미적/잠재적 구조를 해석하는 데 적합

즉, 차원 축소 자체가 목표면 PCA, 숨은 요인 해석이 목표면 요인 분석이 더 알맞습니다.