20260516 인공지능기초실습 11주차
강의 핵심 요약 — Transformer(트랜스포머)
이번 강의는 현대 AI의 핵심 구조인:
Transformer
를 설명하는 수업이었음.
특히:
- Self-Attention
- Query / Key / Value
- Encoder / Decoder
- Multi-Head Attention
- Positional Encoding
- Masking
- Add & Norm
- Feed Forward
이 구조들을 중심으로 설명함.
1. 트랜스포머가 왜 등장했는가
교수 핵심 설명:
기존 RNN/LSTM은 긴 문장에서 앞부분 정보를 잃어버리는 문제가 있었다
기존 Seq2Seq 문제
예전 자연어 처리:
문장 전체를 하나의 벡터로 압축
했음.
근데 긴 문장에서는:
- 앞 단어 정보 손실
- 장거리 문맥 이해 어려움
- 번역 품질 저하
문제가 발생.
2. Attention의 등장
교수 설명:
문장의 모든 단어를 참고하면서 중요한 단어에 집중
핵심 아이디어
예:
나는 어제 영화를 봤는데 정말 재미있었다
여기서:
재미있었다
는:
영화
와 강한 관련.
Attention은:
단어 간 중요도 계산
을 수행.
3. Self-Attention
강의 핵심 중 핵심.
정의:
자기 문장 내부 단어끼리 서로 관계 계산
기존 Attention
번역:
한국어 ↔ 영어
처럼:
서로 다른 문장 간 관계
를 봄.
Self-Attention
반면:
한 문장 내부 단어들끼리 관계 계산
함.
4. Self-Attention 핵심 특징
교수 강조:
문장 전체를 한 번에 본다
RNN과 차이
RNN
단어를 순차적으로 읽음
Transformer
문장을 동시에 처리
5. Query / Key / Value
트랜스포머 핵심 3요소.
교수 설명:
Q, K, V 구조가 핵심
6. Query(Q)
의미:
내가 찾고 싶은 정보
7. Key(K)
의미:
비교 대상 정보
8. Value(V)
의미:
실제 내용
9. Self-Attention 계산 흐름
강의 핵심.
1단계
Q와 K 비교
→ 관련도 점수 계산
2단계
Softmax 적용
→ 확률 형태로 변환
3단계
가중치를 V에 적용
→ 중요한 정보 강조
10. Softmax 역할
교수 설명:
확률값 형태로 정규화
의미
예:
각 단어 중요도 합 = 100%
처럼 변환.
11. QKᵀ 계산
강의에서 수식 설명함.
핵심:
Q × Kᵀ
의미
단어 간 유사도 계산
12. 왜 긴 문장에서 강한가
교수 설명:
멀리 떨어진 단어 관계도 바로 계산 가능
예
it
이:
animal
을 가리키는 관계 파악 가능.
RNN은 이런 장거리 의존성에 약했음.
13. Transformer 구조
교수 핵심:
Encoder + Decoder 구조
14. Encoder 역할
정의:
입력 문장을 이해하는 역할
하는 일
- 단어 관계 분석
- 의미 추출
- 문맥 벡터 생성
15. Decoder 역할
정의:
새 문장을 생성하는 역할
하는 일
- 다음 단어 예측
- 문장 생성
- 번역 결과 생성
16. Positional Encoding
엄청 중요.
교수 설명:
트랜스포머는 문장을 동시에 입력받기 때문에 위치 정보가 필요
17. 왜 필요한가
Transformer는:
순차 처리 안 함
즉:
단어 순서 정보 사라짐
그래서:
위치 벡터 추가
함.
18. Multi-Head Attention
강의 핵심.
정의:
여러 관점에서 동시에 Attention 수행
19. Head 의미
교수 설명:
각 Head는 서로 다른 관계를 학습
예시
| Head | 보는 관계 |
|---|---|
| Head1 | 주어-동사 |
| Head2 | 의미 유사성 |
| Head3 | 위치 패턴 |
| Head4 | 원인-결과 |
20. 중요한 포인트
교수 강조:
개발자가 지정하는 게 아니라 모델이 스스로 학습
21. Feed Forward Network
Attention 이후 단계.
역할:
정보를 정리하고 가공
22. Add (Residual Connection)
엄청 중요.
교수 설명:
원래 입력을 다시 더해준다
목적
원래 정보 손실 방지
효과
- 기울기 소실 완화
- 깊은 네트워크 학습 안정화
23. Norm (Layer Normalization)
정의:
평균 0, 분산 1로 정규화
목적
값 폭주 방지
24. Decoder Self-Attention
Encoder와 차이 존재.
Decoder는:
현재까지 생성한 단어만 참고
25. 문제 발생 가능성
Transformer는 원래:
문장 전체를 동시에 본다
그러면 Decoder가:
미래 단어 미리 봐버릴 수 있음
26. Masking
해결책.
정의:
미래 단어를 가려버리는 기법
27. Masked Self-Attention
의미:
앞 단어만 보고 다음 단어 예측
효과
진짜 문장 생성처럼 동작
28. Encoder-Decoder Attention
Decoder는:
- 자기 문장도 보고
- Encoder 결과도 참고
함.
의미
입력 문장 의미를 참고하면서 출력 생성
29. 전체 흐름
강의 전체 핵심 구조.
Encoder
입력
→ Embedding
→ Positional Encoding
→ Self-Attention
→ Feed Forward
Decoder
출력 생성
→ Masked Self-Attention
→ Encoder-Decoder Attention
→ Feed Forward
→ Softmax
30. Softmax 최종 역할
교수 설명:
다음 단어 확률 계산
예
오늘 날씨가 정말
다음 후보:
- 좋다 70%
- 춥다 20%
- 덥다 10%
이런 식.
31. Transformer의 영향
교수 강조:
2017년 Attention Is All You Need 논문 이후 NLP 판이 바뀜
32. GPT와의 관계
중요.
교수 설명:
GPT도 Transformer 기반 모델
대표 모델
- GPT
- BERT
- T5
- Gemini 계열
- 대부분 최신 LLM
전부 Transformer 기반.
교수 전체 핵심 메시지
이번 수업 핵심:
Transformer의 본질은 Self-Attention이다
였음.
시험 관점 핵심
진짜 중요:
Self-Attention
- 문장 내부 관계 계산
Q / K / V
- Query
- Key
- Value
Multi-Head
- 여러 관계 동시 학습
Positional Encoding
- 위치 정보 보존
Encoder
- 입력 이해
Decoder
- 문장 생성
Masking
- 미래 단어 차단
Add & Norm
- 안정화 + 정보 보존
Softmax
- 다음 단어 확률 계산
핵심 비교
| RNN | Transformer |
|---|---|
| 순차 처리 | 병렬 처리 |
| 긴 문장 약함 | 장거리 관계 강함 |
| 느림 | 빠름 |
| 정보 손실 큼 | Attention으로 보완 |
교수 계속 강조한 거
트랜스포머는 결국
단어 사이 관계를 얼마나 잘 파악하느냐의 문제
이거였음 ㅋㅋ