Diffusion Model은 최근 생성형 AI에서 가장 강력한 성능을 보이는 아키텍처 중 하나입니다.
핵심은 데이터 분포를 직접 한 번에 생성하는 대신, 노이즈를 단계적으로 추가하고 제거하는 과정을 학습하는 데 있습니다.

1. 확산 모델의 핵심 원리

확산 모델은 두 과정으로 구성됩니다.

1.1 순방향 확산 (Forward Diffusion)

  • 원본 (x_0)에 가우시안 노이즈를 단계적으로 추가
  • 충분한 단계 후 (x_T)는 거의 순수 노이즈
  • 이 과정은 고정된 마르코프 체인으로 설계되며, 보통 학습 대상이 아님

1.2 역방향 역확산 (Reverse Diffusion)

  • (x_T)에서 시작해 노이즈를 점진적으로 제거
  • 신경망(주로 U-Net)이 각 단계에서 제거할 노이즈 (\epsilon)를 예측
  • 반복적으로 (x_{t-1})을 복원해 최종적으로 (x_0) 생성

대표 학습 목표(노이즈 예측):

[ L = |\epsilon - \epsilon_{\theta}(x_t, t)|^2 ]

2. GAN 대비 기술적 차별점

항목 Diffusion Model GAN
생성 방식 단계적 노이즈 제거 잠재벡터 -> 이미지 단일 변환
학습 안정성 상대적으로 안정적 불안정할 수 있음
Mode Collapse 상대적으로 적음 비교적 자주 발생
품질/다양성 높은 사실성 + 다양성 설정에 따라 편차 큼

핵심적으로 Diffusion은 데이터 분포 전체를 더 폭넓게 커버하는 경향이 있어 다양성 확보에 유리합니다.

3. 왜 강력한가?

3.1 분포 커버리지

모드 붕괴 문제를 줄이며 다양한 샘플을 생성하기 쉽습니다.

3.2 잠재 공간 해석성

노이즈 공간에서의 조작이 비교적 예측 가능한 편이라 편집/조건 생성에 유리합니다.

3.3 조건부 생성 확장성

텍스트, 마스크, 저해상도 이미지 등을 조건으로 넣어 다양한 생성 작업으로 확장됩니다.

4. 대표 활용 사례

  • Text-to-Image: DALL·E 2, Midjourney, Stable Diffusion 계열
  • Inpainting/Outpainting: 결손 영역 복원/확장
  • Super-Resolution: 저해상도 -> 고해상도 복원
  • 조건부 이미지 변환 전반

5. 현재 연구 방향

  • 샘플링 속도 개선 (DDIM, consistency 계열 등)
  • 연산 효율/메모리 최적화
  • 조건 제어 정밀도 향상

결론

Diffusion Model은 “노이즈를 통제해 생성한다”는 새로운 패러다임으로 생성 AI의 중심 축이 되었습니다.
고품질·고다양성·안정 학습이라는 장점을 바탕으로, 이미지 생성부터 편집까지 폭넓은 실무 응용에서 핵심 아키텍처로 자리잡고 있습니다.