Mask R-CNN

Mask R-CNN에서 직접 따라간 구현 흐름과 코드 증거를 다시 볼 수 있게 정리한 DL 학습 기록입니다. 본문은 실험의 큰 흐름을 먼저 훑고, class PennFudanDatase…, num_classes = 2, in_features_mask = mo… 같은 코드로 실제 구현을 이어서 확인할 수 있습니다. md 원본과 11개 코드 블록, 10개 실행 셀을 함께 남겨 구현 흐름을 다시 따라갈 수 있게 정리했습니다. 주요 스택은 os, torch, torchvision, matplotlib입니다.

빠르게 볼 수 있는 포인트: 데이터셋 준비, 데이터셋을 학습용과 테스트용으로 나눕니다., DataLoader 생성.

남겨둔 자료: md 원본과 11개 코드 블록, 10개 실행 셀을 함께 남겨 구현 흐름을 다시 따라갈 수 있게 정리했습니다. 주요 스택은 os, torch, torchvision, matplotlib입니다.

주요 스택: os, torch, torchvision, matplotlib

Snapshot

Item	Value
Track	DL
Type	Archive Note
Source Files	`md`
Code Blocks	11
Execution Cells	10
Libraries	`os`, `torch`, `torchvision`, `matplotlib`
Source Note	`(실습)Mask R-CNN`

What This Note Covers

데이터셋 준비
데이터셋을 학습용과 테스트용으로 나눕니다.
DataLoader 생성
간단한 학습 루프 (2 에폭 예시)
학습 가능한 파라미터만 모아 옵티마이저에 전달

Why This Matters

객체 탐지와 영역 단위 이해

왜 필요한가: 이미지 안에서 무엇이 있는지만이 아니라 어디에 있는지까지 알아야 할 때는 박스 또는 마스크 단위 예측이 필요합니다.
왜 이 방식을 쓰는가: Detection 계열 모델은 분류보다 한 단계 더 나아가 위치 정보를 함께 학습하므로 실제 비전 문제에 더 직접적으로 연결됩니다.
원리: 모델은 후보 영역을 만들고, 각 영역의 클래스와 좌표 또는 마스크를 동시에 예측해 장면을 해석합니다.

데이터 파이프라인

왜 필요한가: 모델 성능 이전에 입력이 일정한 형식으로 잘 들어가야 학습과 평가가 안정적으로 반복됩니다.
왜 이 방식을 쓰는가: Dataset/DataLoader 구조는 데이터 읽기, 변환, 배치 처리를 분리해 코드 재사용성과 실험 반복성을 높여줍니다.
원리: 각 샘플을 Dataset이 제공하고, DataLoader가 이를 배치로 묶어 셔플·병렬 로딩·collate를 담당합니다.

합성곱 기반 특징 추출

왜 필요한가: 이미지는 인접 픽셀 관계와 지역 패턴이 중요해서, 완전연결층만으로는 공간 구조를 효율적으로 잡기 어렵습니다.
왜 이 방식을 쓰는가: CNN은 필터를 공유하며 지역 특징을 반복적으로 추출할 수 있어 이미지 실습의 기본 뼈대로 적합합니다.
원리: 작은 커널이 이미지 위를 이동하며 특징을 뽑고, 층이 깊어질수록 더 추상적인 패턴을 학습합니다.

Implementation Flow

Key Step: 데이터셋 준비: PennFudan 데이터셋의 경로와 변환 함수 지정
Key Step: 데이터셋을 학습용과 테스트용으로 나눕니다.
Key Step: 여기서는 무작위로 선택하여 마지막 50개 이미지를 테스트셋으로 사용합니다.
Key Step: DataLoader 생성: 배치 크기, 셔플 여부, 그리고 collate_fn 지정

Code Highlights

class PennFudanDataset(torch.utils.data.Dataset)

class PennFudanDataset(torch.utils.data.Dataset)는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 코드 안에서는 마스크에 포함된 클래스를 확인 -> 그중에 0은 배경으로 제외, 각 객체 인스턴스에 대해 binary mask를 생성합니다., mask == obj_ids[:, None, None]는 각 인스턴스마다 True/Fal… 흐름이 주석과 함께 드러납니다.

class  PennFudanDataset(torch.utils.data.Dataset):
    def __init__(self, root, transform):
        self.root = root
        self.transform = transform

        self.imgs = sorted(os.listdir(os.path.join(root, "PNGImages")))
        self.masks = sorted(os.listdir(os.path.join(root, "PedMasks")))

    def __getitem__(self, idx):
        img_path = os.path.join(self.root, "PNGImages", self.imgs[idx])
        mask_path = os.path.join(self.root, "PedMasks", self.masks[idx])

        img = read_image(img_path)
        mask = read_image(mask_path)

        # 마스크에 포함된 클래스를 확인 -> 그중에 0은 배경으로 제외
        obj_ids = torch.unique(mask)[1:]

        # 각 객체 인스턴스에 대해 binary mask를 생성합니다.
        # mask == obj_ids[:, None, None]는 각 인스턴스마다 True/False 마스크를 만듭니다.
        # .to(dtype=torch.uint8)로 자료형을 8비트 정수형으로 변환합니다.
        masks = (mask == obj_ids[:,None, None]).to(dtype=torch.uint8)
        boxes = masks_to_boxes(masks)
        labels = torch.ones((len(obj_ids),),dtype=torch.int64)
        image_id = idx
        area = (boxes[:,3] - boxes[:,1]) * (boxes[:,2] - boxes[:,0])
        iscrowd = torch.zeros((len(obj_ids),), dtype=torch.int64)

# ... trimmed ...

num_classes = 2

num_classes = 2는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 원본 노트에서 구현 흐름을 가장 잘 보여주는 핵심 코드 중 하나입니다.

num_classes = 2
device = "cuda" if torch.cuda.is_available() else 'cpu'

model = torchvision.models.detection.maskrcnn_resnet50_fpn(weights="DEFAULT")

in_features_mask = model.roi_heads.mask_predictor.conv5_mask.in_channels

in_features_mask = model.roi_heads.mask_predictor.conv5_mask.in_channels는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 원본 노트에서 구현 흐름을 가장 잘 보여주는 핵심 코드 중 하나입니다.

in_features_mask = model.roi_heads.mask_predictor.conv5_mask.in_channels
in_features_mask

model.roi_heads.mask_predictor = torchvision.models.detection.mask_rcnn.MaskRCNNPredictor(in_features_mask, 256, num_classes)
model.roi_heads.mask_predictor
model.to(device)

def collate_fn(batch)

def collate_fn(batch)는 이 노트에서 핵심 구현을 보여주는 코드 블록입니다. 코드 안에서는 데이터셋 준비: PennFudan 데이터셋의 경로와 변환 함수 지정, 데이터셋을 학습용과 테스트용으로 나눕니다., 여기서는 무작위로 선택하여 마지막 50개 이미지를 테스트셋으로 사용합니다. 흐름이 주석과 함께 드러납니다.

def collate_fn(batch):
    return tuple(zip(*batch))

# 데이터셋 준비: PennFudan 데이터셋의 경로와 변환 함수 지정
dataset = PennFudanDataset('/content/data/PennFudanPed', get_transform(train=True))
dataset_test = PennFudanDataset('./data/PennFudanPed', get_transform(train=False))

# 데이터셋을 학습용과 테스트용으로 나눕니다.
# 여기서는 무작위로 선택하여 마지막 50개 이미지를 테스트셋으로 사용합니다.
indices = torch.randperm(len(dataset)).tolist()
dataset = torch.utils.data.Subset(dataset, indices[:-50])
dataset_test = torch.utils.data.Subset(dataset_test, indices[-50:])

# DataLoader 생성: 배치 크기, 셔플 여부, 그리고 collate_fn 지정
data_loader = torch.utils.data.DataLoader(dataset, batch_size=2, shuffle=True, collate_fn=collate_fn)
data_loader_test = torch.utils.data.DataLoader(dataset_test, batch_size=1, shuffle=False, collate_fn=collate_fn)

Source Bundle

Source path: 12_Deep_Learning/Code_Snippets/(실습)Mask R-CNN.md
Source formats: md
Companion files: (실습)Mask R-CNN.md
Note type: code-note
Last updated in the source vault: 2026-03-08T03:33:14
Related notes: 2025.10.1,2,13,14.md, 12_Deep_Learning_Code_Summary.md
External references: localhost, www.cis.upenn.edu

Note Preview

원본 노트에 별도 설명 문단이 많지 않아 코드 중심으로 보존했습니다.