트랜스포머는 어떻게 Seq2Seq의 시대를 끝냈는가

트랜스포머는 단순한 성능 개선 모델이 아니라, NLP 아키텍처의 규칙 자체를 바꾼 전환점입니다.
핵심은 RNN 기반 순차 처리에서 Self-Attention 기반 병렬 처리로의 이동입니다.

1. 구조적 단절: RNN과의 결별

Seq2Seq는 어텐션을 “보조 장치”로 붙인 구조인 반면, 트랜스포머는 어텐션 자체를 주 엔진으로 삼았습니다.

이 차이가 BERT/GPT 같은 대형 모델의 현실적 학습을 가능하게 했습니다.

Seq2Seq는 입력 정보를 압축해 전달하는 경향이 강해 길이가 길어질수록 정보 손실 위험이 있습니다.
Transformer는 각 토큰이 모든 토큰을 직접 참조(Self-Attention)해 전역 문맥을 동적으로 조합합니다.

즉, 문맥 처리의 중심이 “단일 벡터 압축”에서 “전역 관계 계산”으로 바뀐 것입니다.

Self-Attention은 기본적으로 순서 정보를 알지 못하므로, Transformer는 Positional Encoding을 도입합니다.

트랜스포머는 다음을 동시에 달성했습니다.

결과적으로 NLP의 표준 아키텍처가 되었고, 현대 LLM의 기반으로 자리잡았습니다.