20260516 인공지능기초실습 11주차

강의 핵심 요약 — Transformer(트랜스포머)

이번 강의는 현대 AI의 핵심 구조인:

Transformer

를 설명하는 수업이었음.

특히:

Self-Attention
Query / Key / Value
Encoder / Decoder
Multi-Head Attention
Positional Encoding
Masking
Add & Norm
Feed Forward

이 구조들을 중심으로 설명함.

1. 트랜스포머가 왜 등장했는가

교수 핵심 설명:

기존 RNN/LSTM은 긴 문장에서 앞부분 정보를 잃어버리는 문제가 있었다

기존 Seq2Seq 문제

예전 자연어 처리:

문장 전체를 하나의 벡터로 압축

했음.

근데 긴 문장에서는:

앞 단어 정보 손실
장거리 문맥 이해 어려움
번역 품질 저하

문제가 발생.

2. Attention의 등장

교수 설명:

문장의 모든 단어를 참고하면서 중요한 단어에 집중

핵심 아이디어

예:

나는 어제 영화를 봤는데 정말 재미있었다

여기서:

재미있었다

는:

영화

와 강한 관련.

Attention은:

단어 간 중요도 계산

을 수행.

3. Self-Attention

강의 핵심 중 핵심.

정의:

자기 문장 내부 단어끼리 서로 관계 계산

기존 Attention

번역:

한국어 ↔ 영어

처럼:

서로 다른 문장 간 관계

를 봄.

Self-Attention

반면:

한 문장 내부 단어들끼리 관계 계산

함.

4. Self-Attention 핵심 특징

교수 강조:

문장 전체를 한 번에 본다

RNN과 차이

RNN

단어를 순차적으로 읽음

Transformer

문장을 동시에 처리

5. Query / Key / Value

트랜스포머 핵심 3요소.

교수 설명:

Q, K, V 구조가 핵심

6. Query(Q)

의미:

내가 찾고 싶은 정보

7. Key(K)

의미:

비교 대상 정보

8. Value(V)

의미:

실제 내용

9. Self-Attention 계산 흐름

강의 핵심.

1단계

Q와 K 비교

→ 관련도 점수 계산

2단계

Softmax 적용

→ 확률 형태로 변환

3단계

가중치를 V에 적용

→ 중요한 정보 강조

10. Softmax 역할

교수 설명:

확률값 형태로 정규화

의미

예:

각 단어 중요도 합 = 100%

처럼 변환.

11. QKᵀ 계산

강의에서 수식 설명함.

핵심:

Q × Kᵀ

의미

단어 간 유사도 계산

12. 왜 긴 문장에서 강한가

교수 설명:

멀리 떨어진 단어 관계도 바로 계산 가능

예

it

이:

animal

을 가리키는 관계 파악 가능.

RNN은 이런 장거리 의존성에 약했음.

13. Transformer 구조

교수 핵심:

Encoder + Decoder 구조

14. Encoder 역할

정의:

입력 문장을 이해하는 역할

하는 일

단어 관계 분석
의미 추출
문맥 벡터 생성

15. Decoder 역할

정의:

새 문장을 생성하는 역할

하는 일

다음 단어 예측
문장 생성
번역 결과 생성

16. Positional Encoding

엄청 중요.

교수 설명:

트랜스포머는 문장을 동시에 입력받기 때문에 위치 정보가 필요

17. 왜 필요한가

Transformer는:

순차 처리 안 함

즉:

단어 순서 정보 사라짐

그래서:

위치 벡터 추가

함.

18. Multi-Head Attention

강의 핵심.

정의:

여러 관점에서 동시에 Attention 수행

19. Head 의미

교수 설명:

각 Head는 서로 다른 관계를 학습

예시

Head	보는 관계
Head1	주어-동사
Head2	의미 유사성
Head3	위치 패턴
Head4	원인-결과

20. 중요한 포인트

교수 강조:

개발자가 지정하는 게 아니라 모델이 스스로 학습

21. Feed Forward Network

Attention 이후 단계.

역할:

정보를 정리하고 가공

22. Add (Residual Connection)

엄청 중요.

교수 설명:

원래 입력을 다시 더해준다

목적

원래 정보 손실 방지

효과

기울기 소실 완화
깊은 네트워크 학습 안정화

23. Norm (Layer Normalization)

정의:

평균 0, 분산 1로 정규화

목적

값 폭주 방지

24. Decoder Self-Attention

Encoder와 차이 존재.

Decoder는:

현재까지 생성한 단어만 참고

25. 문제 발생 가능성

Transformer는 원래:

문장 전체를 동시에 본다

그러면 Decoder가:

미래 단어 미리 봐버릴 수 있음

26. Masking

해결책.

정의:

미래 단어를 가려버리는 기법

27. Masked Self-Attention

의미:

앞 단어만 보고 다음 단어 예측

효과

진짜 문장 생성처럼 동작

28. Encoder-Decoder Attention

Decoder는:

자기 문장도 보고
Encoder 결과도 참고

함.

의미

입력 문장 의미를 참고하면서 출력 생성

29. 전체 흐름

강의 전체 핵심 구조.

Encoder

입력
→ Embedding
→ Positional Encoding
→ Self-Attention
→ Feed Forward

Decoder

출력 생성
→ Masked Self-Attention
→ Encoder-Decoder Attention
→ Feed Forward
→ Softmax

30. Softmax 최종 역할

교수 설명:

다음 단어 확률 계산

예

오늘 날씨가 정말

다음 후보:

좋다 70%
춥다 20%
덥다 10%

이런 식.

31. Transformer의 영향

교수 강조:

2017년 Attention Is All You Need 논문 이후 NLP 판이 바뀜

32. GPT와의 관계

중요.

교수 설명:

GPT도 Transformer 기반 모델

대표 모델

GPT
BERT
T5
Gemini 계열
대부분 최신 LLM

전부 Transformer 기반.

교수 전체 핵심 메시지

이번 수업 핵심:

Transformer의 본질은 Self-Attention이다

였음.

시험 관점 핵심

진짜 중요:

Self-Attention

문장 내부 관계 계산

Q / K / V

Query
Key
Value

Multi-Head

여러 관계 동시 학습

Positional Encoding

위치 정보 보존

Encoder

입력 이해

Decoder

문장 생성

Masking

미래 단어 차단

Add & Norm

안정화 + 정보 보존

Softmax

다음 단어 확률 계산

핵심 비교

RNN	Transformer
순차 처리	병렬 처리
긴 문장 약함	장거리 관계 강함
느림	빠름
정보 손실 큼	Attention으로 보완

교수 계속 강조한 거

트랜스포머는 결국
단어 사이 관계를 얼마나 잘 파악하느냐의 문제

이거였음 ㅋㅋ

20260516 인공지능기초실습 11주차

강의 핵심 요약 — Transformer(트랜스포머)

1. 트랜스포머가 왜 등장했는가

기존 Seq2Seq 문제

2. Attention의 등장

핵심 아이디어

3. Self-Attention

기존 Attention

Self-Attention

4. Self-Attention 핵심 특징

RNN과 차이

RNN

Transformer

5. Query / Key / Value

6. Query(Q)

7. Key(K)

8. Value(V)

9. Self-Attention 계산 흐름

1단계

2단계

3단계

10. Softmax 역할

의미

11. QKᵀ 계산

의미

12. 왜 긴 문장에서 강한가

예

13. Transformer 구조

14. Encoder 역할

하는 일

15. Decoder 역할

하는 일

16. Positional Encoding

17. 왜 필요한가

18. Multi-Head Attention

19. Head 의미

예시

20. 중요한 포인트

21. Feed Forward Network

22. Add (Residual Connection)

목적

효과

23. Norm (Layer Normalization)

목적

24. Decoder Self-Attention

25. 문제 발생 가능성

26. Masking

27. Masked Self-Attention

효과

28. Encoder-Decoder Attention

의미

29. 전체 흐름

Encoder

Decoder

30. Softmax 최종 역할

예

31. Transformer의 영향

32. GPT와의 관계

대표 모델

교수 전체 핵심 메시지

시험 관점 핵심

Self-Attention

Q / K / V

Multi-Head

Positional Encoding

Encoder

Decoder

Masking

Add & Norm

Softmax

핵심 비교

교수 계속 강조한 거

댓글