.사전훈련된 모델 활용

.사전훈련된 모델 활용에서 직접 따라간 구현 흐름과 코드 증거를 다시 볼 수 있게 정리한 DL 학습 기록입니다. 본문은 코드 설명 순서로 핵심 장면을 먼저 훑고, 코드 설명 같은 코드로 실제 구현을 이어서 확인할 수 있습니다. md 원본과 16개 코드 블록, 13개 실행 셀을 함께 남겨 구현 흐름을 다시 따라갈 수 있게 정리했습니다. 주요 스택은 torch, torchvision, matplotlib, numpy입니다.

빠르게 볼 수 있는 포인트: 코드 설명.

남겨둔 자료: md 원본과 16개 코드 블록, 13개 실행 셀을 함께 남겨 구현 흐름을 다시 따라갈 수 있게 정리했습니다. 주요 스택은 torch, torchvision, matplotlib, numpy입니다.

주요 스택: torch, torchvision, matplotlib, numpy, math

Snapshot

Item	Value
Track	DL
Type	Archive Note
Source Files	`md`
Code Blocks	16
Execution Cells	13
Libraries	`torch`, `torchvision`, `matplotlib`, `numpy`, `math`, `PIL`, `tqdm`, `os`
Source Note	`5-1.사전훈련된 모델 활용`

What This Note Covers

코드 설명

CIFAR-100 사전학습: CIFAR-100 데이터셋을 사용해 SimpleCNN 모델을 5 에폭 동안 학습한 후, 가중치를 저장합니다. MNIST 데이터 전처리: MNIST 이미지를 32×32, 3채널로 변환하여 CIFAR-100 모델에 맞게 전처리합니다.

읽을 포인트: 코드 설명 아래 코드와 함께 읽으면 구현 포인트가 더 또렷해지는 구간입니다.

Why This Matters

데이터 파이프라인

왜 필요한가: 모델 성능 이전에 입력이 일정한 형식으로 잘 들어가야 학습과 평가가 안정적으로 반복됩니다.
왜 이 방식을 쓰는가: Dataset/DataLoader 구조는 데이터 읽기, 변환, 배치 처리를 분리해 코드 재사용성과 실험 반복성을 높여줍니다.
원리: 각 샘플을 Dataset이 제공하고, DataLoader가 이를 배치로 묶어 셔플·병렬 로딩·collate를 담당합니다.

합성곱 기반 특징 추출

왜 필요한가: 이미지는 인접 픽셀 관계와 지역 패턴이 중요해서, 완전연결층만으로는 공간 구조를 효율적으로 잡기 어렵습니다.
왜 이 방식을 쓰는가: CNN은 필터를 공유하며 지역 특징을 반복적으로 추출할 수 있어 이미지 실습의 기본 뼈대로 적합합니다.
원리: 작은 커널이 이미지 위를 이동하며 특징을 뽑고, 층이 깊어질수록 더 추상적인 패턴을 학습합니다.

Implementation Flow

코드 설명: CIFAR-100 사전학습: CIFAR-100 데이터셋을 사용해 SimpleCNN 모델을 5 에폭 동안 학습한 후, 가중치를 저장합니다. MNIST 데이터 전처리: MNIST 이미지를 32×32, 3채널로 변환하여 CIFAR-100 모델에 맞게 전처리…

Code Highlights

코드 설명

코드 설명는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 코드 안에서는 device 설정 (GPU가 있다면 사용), 모델 정의: 간단한 CNN (CIFAR-100 입력에 맞춤), 학습/검증 함수 정의 흐름이 주석과 함께 드러납니다.

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, random_split
import torchvision
import torchvision.transforms as transforms
from tqdm import tqdm  # 진행 상황을 표시하기 위한 라이브러리
import os

# device 설정 (GPU가 있다면 사용)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("사용 device:", device)

# --------------------------------------------------
# 모델 정의: 간단한 CNN (CIFAR-100 입력에 맞춤)
# --------------------------------------------------
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3, padding=1),  # 3 -> 32 채널
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.MaxPool2d(2),  # 32x32 -> 16x16

            nn.Conv2d(32, 64, kernel_size=3, padding=1),  # 32 -> 64 채널
            nn.BatchNorm2d(64),
            nn.ReLU(),
# ... trimmed ...

코드 설명

코드 설명는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 코드 안에서는 MNIST 데이터 전처리 (공통) 흐름이 주석과 함께 드러납니다.

# --------------------------------------------------
# MNIST 데이터 전처리 (공통)
# --------------------------------------------------
transform_mnist = transforms.Compose([
    transforms.Resize(32),  # CIFAR-100 모델 입력 크기에 맞춤
    transforms.Grayscale(num_output_channels=3),  # 3채널로 변환
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.5, 0.5, 0.5],
                         std=[0.5, 0.5, 0.5])
])
mnist_full = torchvision.datasets.MNIST(root='./data', train=True, transform=transform_mnist, download=True)

mnist_train_size = int(0.9 * len(mnist_full))
mnist_val_size = len(mnist_full) - mnist_train_size

mnist_train, mnist_val = random_split(mnist_full, [mnist_train_size, mnist_val_size])
mnist_train_loader = DataLoader(mnist_train, batch_size=128, shuffle=True, num_workers=2)
mnist_val_loader = DataLoader(mnist_val, batch_size=128, shuffle=False, num_workers=2)

코드 설명

코드 설명는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 코드 안에서는 MNIST Full Fine-tuning (전체 레이어 업데이트), MNIST 모델 생성 (우선 CIFAR-100 구조로 생성), CIFAR-100 사전학습된 feature extractor 로드 (features 부분… 흐름이 주석과 함께 드러납니다.

# --------------------------------------------------
# 1. MNIST Full Fine-tuning (전체 레이어 업데이트)
# --------------------------------------------------
print("\n==== MNIST Full Fine-tuning (전체 레이어 업데이트) ====")
# MNIST 모델 생성 (우선 CIFAR-100 구조로 생성)
model_mnist_ft = SimpleCNN().to(device)

# CIFAR-100 사전학습된 feature extractor 로드 (features 부분만 복사)
model_cifar_dict = torch.load('./models/model_cifar100.pth', map_location=device)

model_dict = model_mnist_ft.state_dict()

pretrained_dict = {k: v for k, v in model_cifar_dict.items() if k.startswith("features")}

model_dict.update(pretrained_dict)
model_mnist_ft.load_state_dict(model_dict)


# classifier 교체: 마지막 레이어를 MNIST 분류(10 클래스)에 맞게 변경
model_mnist_ft.classifier[3] = nn.Linear(256, 10).to(device)
print("MNIST Full Fine-tuning 모델:", model_mnist_ft)


# 전체 파라미터 업데이트하므로 feature extractor 고정하지 않음.
# 전체 모델에 대해 작은 학습률 적용 (예: 1e-4)
optimizer_mnist_ft = optim.Adam(model_mnist_ft.parameters(), lr=1e-4)

# metric 저장을 위한 리스트 초기화 (Full Fine-tuning)
# ... trimmed ...

코드 설명

코드 설명는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 코드 안에서는 MNIST Feature Extraction (classifier만 업데이트), MNIST 모델 생성 (초기 CIFAR-100 구조로 생성), feature extractor 고정 흐름이 주석과 함께 드러납니다.

# --------------------------------------------------
# 2. MNIST Feature Extraction (classifier만 업데이트)
# --------------------------------------------------
print("\n==== MNIST Feature Extraction (Classifier 학습) ====")

# MNIST 모델 생성 (초기 CIFAR-100 구조로 생성)
model_mnist_fe = SimpleCNN().to(device)
model_dict_fe = model_mnist_fe.state_dict()
pretrained_dict_fe = {k: v for k, v in model_cifar_dict.items() if k.startswith("features")}
model_dict_fe.update(pretrained_dict_fe)
model_mnist_fe.load_state_dict(model_dict_fe)

# feature extractor 고정
for param in model_mnist_fe.features.parameters():
    param.requires_grad = False

# feature extractor 고정 확인
for name, param in model_mnist_fe.named_parameters():
    print(f"{name}: ", param.requires_grad)
print("\n")

# classifier 교체: 새 분류기로 재정의 (예: 중간층 축소)
model_mnist_fe.classifier = nn.Sequential(
    nn.Linear(128 * 4 * 4, 128),
    nn.ReLU(),
    nn.Linear(128, 10)
).to(device)

# ... trimmed ...

Source Bundle

Source path: 12_Deep_Learning/Code_Snippets/5-1.사전훈련된 모델 활용.md
Source formats: md
Companion files: 5-1.사전훈련된 모델 활용.md
Note type: code-note
Last updated in the source vault: 2026-03-08T03:33:14
Related notes: 12_Deep_Learning_Code_Summary.md
External references: localhost

Note Preview

CIFAR-100 사전학습: CIFAR-100 데이터셋을 사용해 SimpleCNN 모델을 5 에폭 동안 학습한 후, 가중치를 저장합니다.

MNIST 데이터 전처리: MNIST 이미지를 32×32, 3채널로 변환하여 CIFAR-100 모델에 맞게 전처리합니다.