20260509 인공지능기초실습 10주차
강의 핵심 요약 — Attention & 프롬프트 엔지니어링
이번 강의 핵심은 크게 두 개였음.
- Attention / Self-Attention
- Prompt Engineering
특히:
RNN → LSTM → GRU → Seq2Seq → Attention → Self-Attention
이 발전 흐름을 이해하는 게 핵심임.
1. RNN 계열 모델의 발전 흐름
강의 초반은 자연어 처리 모델이 어떻게 발전했는지 설명함.
순서:
RNN
→ LSTM
→ GRU
→ Seq2Seq
→ Attention
RNN의 문제점
RNN은:
과거 정보를 오래 기억하기 어려움
이라는 한계가 있었음.
이유:
- 문장이 길어질수록
- 앞 정보가 뒤로 전달되며 희석됨
- 장기 의존성(Long-Term Dependency) 문제 발생
예:
문장 앞의 중요한 단어를 뒤에서 잊어버림
2. LSTM
RNN 문제를 개선하기 위해 등장.
핵심:
장기 기억(Long-Term Memory)을 유지
하는 구조.
핵심 개념 — Cell State
LSTM에서 가장 중요한 것:
Cell State
이건:
장기 기억 저장 공간
역할을 함.
교수 비유:
컨베이어 벨트처럼 정보가 흐른다
게이트(Gate)
LSTM은 게이트로 정보 제어함.
| 게이트 | 역할 |
|---|---|
| Forget Gate | 잊을 정보 결정 |
| Input Gate | 저장할 정보 결정 |
| Output Gate | 출력 결정 |
LSTM 장점
- 긴 문장 처리 가능
- RNN보다 기억력 좋음
LSTM 단점
하지만:
구조 복잡
계산량 많음
속도 느림
3. GRU
LSTM을 경량화한 모델.
핵심:
더 단순하게 만들자
GRU 특징
LSTM:
Forget Gate + Input Gate
두 개 사용.
GRU:
Update Gate
하나로 합침.
추가 특징
- Output Gate 제거
- Reset Gate 추가
Reset Gate:
과거 기억 얼마나 반영할지 결정
핵심
교수 계속 강조한 거:
GRU = LSTM 경량화 버전
4. Seq2Seq
Sequence to Sequence 모델.
예:
번역
요약
챗봇
같은 작업에 사용.
구조
두 부분으로 구성:
| 구성 | 역할 |
|---|---|
| Encoder | 입력 문장 압축 |
| Decoder | 출력 문장 생성 |
5. Context Vector
Seq2Seq 핵심 개념.
Encoder가 입력 문장을:
하나의 고정 길이 벡터
로 압축함.
이걸:
Context Vector
라고 함.
문제점
문장이 길어지면:
정보 손실 발생
함.
교수 예시:
책 한 권 분량을
하나의 작은 벡터에 압축
하는 느낌.
6. Attention
이 문제를 해결하기 위해 등장.
핵심 아이디어:
모든 단어를 똑같이 보지 말자
중요한 단어에 집중하자
Attention 정의
문장 생성 시:
관련 단어에 가중치(weight)를 줌
7. Attention 동작 방식
예:
어제 카페 갔었어
→ I went to cafe
여기서:
카페 ↔ cafe
강한 연결.
반면:
어제 ↔ cafe
약한 연결.
즉:
관련 단어끼리 집중(attention)
하는 구조.
8. Hot Dog 예시
강의에서 중요한 예시.
문장:
I want to eat a hot dog
기계는:
hot + dog
를 따로 볼 수도 있음.
하지만 Attention은:
hot dog
를 하나의 의미 단위로 이해함.
즉:
문맥(Context) 이해
를 가능하게 함.
9. Self-Attention
Attention 발전 버전.
핵심:
문장 내부 단어끼리 관계 분석
일반 Attention과 차이
일반 Attention
입력 문장 ↔ 출력 문장
비교.
Self-Attention
문장 내부 단어 ↔ 같은 문장 단어
비교.
10. Self-Attention 예시
문장:
나는 은행에 돈을 입금했다
여기서:
은행
돈
입금
은 강한 관련성.
반면:
나는
은 상대적으로 관련 적음.
즉:
문맥적으로 중요한 단어끼리 연결
하는 것.
11. Q, K, V
Self-Attention 핵심.
| 요소 | 의미 |
|---|---|
| Query(Q) | 내가 찾고 싶은 정보 |
| Key(K) | 비교 대상 |
| Value(V) | 실제 정보 |
12. Query
교수 설명:
질문 던지는 역할
예:
버럭이가 무슨 말 했지?
같은 느낌.
13. Key
Key는:
단어 특징/정체성
예:
슬픔
분노
기쁨
같은 속성.
14. Value
Value는:
실제 내용 정보
예:
버럭이는 화내면 얼굴 빨개짐
같은 실제 데이터.
15. Attention 계산 흐름
순서:
1단계
Q와 K 유사도 계산
2단계
Attention Score 생성
3단계
가중치(weight) 결정
4단계
V와 곱해서 최종 정보 생성
16. Attention 수식
강의에서 나온 핵심 수식:
Attention(Q,K,V)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V
의미
QKᵀ
단어 유사도 계산
softmax
중요도 확률화
V
최종 정보 반영
17. Self-Attention 장점
핵심:
문맥 이해 능력 강화
특히:
- 긴 문장 처리 강함
- 단어 관계 파악 가능
- 번역 정확도 상승
18. Transformer와 관계
교수 강조:
현재 LLM 핵심 기술
임.
즉:
GPT
Claude
Gemini
같은 생성형 AI 핵심 기반.
19. 프롬프트 엔지니어링
강의 후반 주제.
정의:
AI가 원하는 답변을 하도록
입력을 설계하는 기술
20. 왜 중요한가
LLM은:
입력 품질에 따라
출력 품질 달라짐
즉:
질문 잘해야 결과 좋음
21. 프롬프트 엔지니어링 목적
핵심:
- 원하는 답 생성
- 정확도 향상
- 안전성 향상
- AI 제어 강화
시험 관점 핵심
진짜 중요 포인트:
모델 발전 흐름
RNN → LSTM → GRU → Seq2Seq → Attention
LSTM
- Cell State
- Gate 구조
- 장기 기억
GRU
- 경량화
- Update Gate
- Reset Gate
Seq2Seq
- Encoder
- Decoder
- Context Vector
Attention
- 중요한 단어 집중
- 가중치 부여
Self-Attention
- 문장 내부 관계 분석
- Q/K/V
Q/K/V 의미
| 요소 | 의미 |
|---|---|
| Q | 질문 |
| K | 비교 기준 |
| V | 실제 정보 |
Attention 수식
Attention(Q,K,V)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V
Prompt Engineering
- AI 입력 설계 기술
- 질문 품질 중요
교수 전체적으로 계속 강조한 핵심은:
LLM은 결국
문맥(Context)을 얼마나 잘 이해하느냐 싸움
이라는 거였음 ㅋㅋ