Attention Is All You Need 논문 : 처음 읽어보기! - (1)

2025-02-20 18:20 · 카테고리: llm-engineering

Part 1: “왜 Transformer인가?” - RNN의 한계와 Attention의 등장

🤔 이 논문, 왜 모두가 떠들썩한가?

“Attention Is All You Need”… 제목부터 뭔가 도발적이죠? 2017년에 나온 이 논문 하나가 AI 판도를 완전히 바꿔놨습니다. ChatGPT, Claude, Gemini… 요즘 핫한 AI들 전부 이 논문에서 시작됐거든요. 현대 LLM 아키텍쳐는 대부분 이 Transformer 기반이거나 Transformer 변형 아키텍쳐를 사용합니다. LLM을 이해하고 싶다면 정말정말 Transformer만큼은 이해해야 합니다.

(Diffusion 등 다른 기술 기반 모델도 있지만, 오늘은 Transformer에 집중할게요.)

근데 솔직히 말하면, 논문 읽기 쉽지 않죠? 저도 처음 읽을 때 “아 이게 뭔 소리야…” 했습니다. 그래서 함께 읽어보려고 합니다. 혼자 읽으면 어려운데, 같이 읽으면 좀 덜 부담스럽잖아요?

Disclaimer: 이 논문은 머신러닝과 딥러닝에 대한 기본 지식은 있어야 합니다. NLP 관련 지식은 없어도 읽을수 있지만, 딥러닝 관련 지식이 없다면 무슨 말인지 거의 이해할 수 없으므로 제 깃허브 레포지토리의 데이터 과학자를 위한 쿡북 을 참고하세요.

📖 Introduction: “RNN아, 너 정말 최선이었니?”

논문이 시작하자마자 RNN을 대놓고 까기 시작합니다.

“This inherently sequential nature precludes parallelization within training examples, which *becomes critical at longer sequence lengths”

쉽게 말하면 이겁니다:

RNN: “나는 단어를 하나씩 차례대로 처리해야 해… 😓”
우리: “아니 형, 지금 GPU 100개 놀고 있는데 병렬처리 좀 하자”
RNN: “안돼… 나는 순서대로만 할 수 있어…”

실제로 제가 겪었던 일인데요, 옛날 모델 공부 좀 해보려고 LSTM으로 번역 모델 돌려봤더니 문장 길어질수록 학습 시간이 기하급수적으로 늘어나더라고요. 100단어짜리 문장? 그냥 포기.

💡 그래서 뭐가 다른데?: Attention의 혁명

Transformer가 제안한 해법:

“The Transformer allows for significantly more parallelization and can reach a new state of the art in translation quality **after being trained for as little as twelve hours on eight P100 GPUs.”

12시간만에 SOTA? 당시엔 며칠씩 돌리던 시대였어요.

비유:

기존 RNN: 책을 처음부터 끝까지 한 글자씩 읽는 사람
Transformer: 책 전체를 펼쳐놓고 중요한 부분끼리 연결선 그으며 읽는 사람

🔍 Self-Attention: “나 자신을 돌아보다”

“Self-attention … relating different positions of a single sequence in order to compute a representation”

예시:

문장: "은행에 가서 돈을 찾았다"

“은행” 의미 결정: “돈” 단어 참고 → 금융기관.

📊 성능은 정말 좋아졌나?

Table 2 기준:

Training Cost: 10²~10³ 배 개선 (base)
BLEU: 기존 최고치 갱신

1편 요약:

병렬화 = 속도 혁명
Self-Attention = 순차 의존 탈피
성능/비용 모두 개선 → 패러다임 전환

다음 편(2)에서 내부 블록 구조로 들어갑니다.

이 글 및 사이트 내 명시된 창작 컨텐츠 (코드 스니펫 제외)은(는) Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 라이선스로 제공됩니다.
출처 표기: 이하나 · 수정 / 2차 저작물 작성 시 동일한 라이선스로 공유해야 합니다.

License / Attribution Info

라이선스 전문: 로컬 사본
원문: CreativeCommons.org
SPDX ID: CC-BY-SA-4.0

hanaoverride's notebook

잡다한거 적는 곳입니다