[The Attention Revolution] 기계는 어떻게 ‘집중’하는 법을 배웠는가?

어텐션 메커니즘은 NLP에서 “문장을 하나의 벡터로 압축하던 시대”를 끝내고, 필요할 때 필요한 정보에 동적으로 집중하는 시대를 열었습니다.

1. 전통적 Seq2Seq의 한계

RNN 기반 Seq2Seq는 다음 흐름으로 동작합니다.

이 구조의 핵심 문제:

핵심 전환:

“하나의 벡터에 다 넣지 말고, 디코더가 매 시점마다 입력 전체에서 필요한 정보를 직접 조회하자.”

즉, 디코더가 출력 단어를 만들 때마다 입력의 관련 부분에 가중치를 다르게 부여합니다.

디코더 타임스텝마다 다음을 수행합니다.

이 컨텍스트를 활용해 현재 출력 단어를 예측합니다.

즉, 모델이 “무엇을 보고 판단했는지”를 분석할 수 있게 됐습니다.

어텐션의 성공은 결국 “순차 RNN 없이도 된다”는 결론으로 이어졌고,
Self-Attention 중심의 트랜스포머 아키텍처가 등장했습니다.

이후 BERT, GPT 같은 현대 LLM의 핵심 기반은 모두 어텐션 메커니즘입니다.

어텐션은 Seq2Seq의 보조 장치를 넘어 NLP 패러다임 자체를 바꾼 핵심 혁신입니다.
기계가 문맥을 동적으로 선택해 이해하도록 만든 이 아이디어가, 오늘날 생성형 AI 시대의 출발점이 되었습니다.