Transformer: Attention으로 시작된 변화

Transformer: Attention으로 시작된 변화프로그래밍/기술2025. 9. 30. 17:00@ourkofe's story

Table of Contents

딥러닝을 공부하다 보면 “Transformer”라는 단어를 정말 자주 만나게 됩니다.

처음엔 그냥 자연어 처리(NLP) 모델 정도로만 생각했는데, 알아보니 지금은 비전, 음성, 멀티모달까지 거의 모든 딥러닝 분야의 중심이 된 구조였습니다.

이번 글에서는 Transformer가 무엇이고, 왜 중요한지 제가 정리한 내용을 공유하려 합니다.

예전에는 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory) 같은 순환 신경망이 NLP의 주류였습니다.

이 한계를 극복하기 위해 2017년 구글에서 발표한 논문 “Attention Is All You Need”가 바로 Transformer의 시작이었습니다.

이름 그대로, 순환 구조 없이 Attention만으로 문맥을 학습하는 구조입니다.

Transformer의 중심은 Attention(주의 메커니즘)입니다.

간단히 말해, 문장에서 각 단어가 다른 단어와 얼마나 관련이 있는지를 가중치로 계산하는 방법입니다.
예: “The cat sat on the mat”라는 문장에서 “cat”이라는 단어를 해석할 때, “sat”이나 “mat”과의 관계에 더 큰 주의를 두는 식입니다.

이 방식 덕분에, 긴 문장도 멀리 떨어진 단어 간 관계를 잘 학습할 수 있게 되었습니다.

Transformer는 크게 Encoder와 Decoder 두 부분으로 구성됩니다.

Encoder
- 입력 문장을 받아서 전체 의미를 벡터 표현으로 변환.
- 여러 층의 Attention과 Feed-Forward Layer로 이루어짐.
Decoder
- Encoder가 만든 표현을 참고해 출력(번역된 문장 등)을 생성.
- 자기 자신에 대한 Attention(Self-Attention)과 Encoder-Decoder Attention을 함께 사용.

처음에는 번역 모델로 제안되었지만, 이후 구조가 단순하면서도 강력해서 다양한 응용으로 확장되었습니다.

병렬 처리 가능
- RNN은 순차적으로 데이터를 처리해야 했지만, Transformer는 전체 문장을 한 번에 처리 가능 → 학습 속도 ↑
장기 의존성 해결
- 멀리 떨어진 단어들 간의 관계도 Attention으로 잘 포착.
범용성
- NLP뿐 아니라, 이미지, 음성, 시계열 데이터 등 다양한 도메인에 적용 가능.

Transformer는 단순히 “하나의 모델”이라기보다, AI 모델 아키텍처의 패러다임 전환점 같다는 생각이 들었습니다.

이번에 정리하면서 Transformer가 중요하다는 말이 단순한 유행어가 아니라는 걸 확실히 느꼈습니다.

앞으로는 세부 변형 구조(ViT, BERT, GPT 등)도 더 공부해서 정리해보고 싶습니다.

728x90

Zapier란 무엇일까? (0)	2025.10.21
CNN: 이미지 인식의 기본으로 적용된 신경망 (0)	2025.10.01
GAN: 생성 모델의 또 다른 출발 (0)	2025.09.26
Efficient Deep Learning: 거대한 모델을 현실에서 사용하기 (0)	2025.09.25
Self-Supervised Learning: 라벨이 없어도 모델이 학습할 수 있다? (0)	2025.09.24

@ourkofe's story :: ourkofe

데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!

티스토리툴바