20260509 인공지능기초실습 10주차

강의 핵심 요약 — Attention & 프롬프트 엔지니어링

이번 강의 핵심은 크게 두 개였음.

Attention / Self-Attention
Prompt Engineering

특히:

RNN → LSTM → GRU → Seq2Seq → Attention → Self-Attention

이 발전 흐름을 이해하는 게 핵심임.

1. RNN 계열 모델의 발전 흐름

강의 초반은 자연어 처리 모델이 어떻게 발전했는지 설명함.

순서:

RNN
→ LSTM
→ GRU
→ Seq2Seq
→ Attention

RNN의 문제점

RNN은:

과거 정보를 오래 기억하기 어려움

이라는 한계가 있었음.

이유:

문장이 길어질수록
앞 정보가 뒤로 전달되며 희석됨
장기 의존성(Long-Term Dependency) 문제 발생

예:

문장 앞의 중요한 단어를 뒤에서 잊어버림

2. LSTM

RNN 문제를 개선하기 위해 등장.

핵심:

장기 기억(Long-Term Memory)을 유지

하는 구조.

핵심 개념 — Cell State

LSTM에서 가장 중요한 것:

Cell State

이건:

장기 기억 저장 공간

역할을 함.

교수 비유:

컨베이어 벨트처럼 정보가 흐른다

게이트(Gate)

LSTM은 게이트로 정보 제어함.

게이트	역할
Forget Gate	잊을 정보 결정
Input Gate	저장할 정보 결정
Output Gate	출력 결정

LSTM 장점

긴 문장 처리 가능
RNN보다 기억력 좋음

LSTM 단점

하지만:

구조 복잡
계산량 많음
속도 느림

3. GRU

LSTM을 경량화한 모델.

핵심:

더 단순하게 만들자

GRU 특징

LSTM:

Forget Gate + Input Gate

두 개 사용.

GRU:

Update Gate

하나로 합침.

추가 특징

Output Gate 제거
Reset Gate 추가

Reset Gate:

과거 기억 얼마나 반영할지 결정

핵심

교수 계속 강조한 거:

GRU = LSTM 경량화 버전

4. Seq2Seq

Sequence to Sequence 모델.

예:

번역
요약
챗봇

같은 작업에 사용.

구조

두 부분으로 구성:

구성	역할
Encoder	입력 문장 압축
Decoder	출력 문장 생성

5. Context Vector

Seq2Seq 핵심 개념.

Encoder가 입력 문장을:

하나의 고정 길이 벡터

로 압축함.

이걸:

Context Vector

라고 함.

문제점

문장이 길어지면:

정보 손실 발생

함.

교수 예시:

책 한 권 분량을
하나의 작은 벡터에 압축

하는 느낌.

6. Attention

이 문제를 해결하기 위해 등장.

핵심 아이디어:

모든 단어를 똑같이 보지 말자
중요한 단어에 집중하자

Attention 정의

문장 생성 시:

관련 단어에 가중치(weight)를 줌

7. Attention 동작 방식

예:

어제 카페 갔었어
→ I went to cafe

여기서:

카페 ↔ cafe

강한 연결.

반면:

어제 ↔ cafe

약한 연결.

즉:

관련 단어끼리 집중(attention)

하는 구조.

8. Hot Dog 예시

강의에서 중요한 예시.

문장:

I want to eat a hot dog

기계는:

hot + dog

를 따로 볼 수도 있음.

하지만 Attention은:

hot dog

를 하나의 의미 단위로 이해함.

즉:

문맥(Context) 이해

를 가능하게 함.

9. Self-Attention

Attention 발전 버전.

핵심:

문장 내부 단어끼리 관계 분석

일반 Attention과 차이

일반 Attention

입력 문장 ↔ 출력 문장

비교.

Self-Attention

문장 내부 단어 ↔ 같은 문장 단어

비교.

10. Self-Attention 예시

문장:

나는 은행에 돈을 입금했다

여기서:

은행
돈
입금

은 강한 관련성.

반면:

나는

은 상대적으로 관련 적음.

즉:

문맥적으로 중요한 단어끼리 연결

하는 것.

11. Q, K, V

Self-Attention 핵심.

요소	의미
Query(Q)	내가 찾고 싶은 정보
Key(K)	비교 대상
Value(V)	실제 정보

12. Query

교수 설명:

질문 던지는 역할

예:

버럭이가 무슨 말 했지?

같은 느낌.

13. Key

Key는:

단어 특징/정체성

예:

슬픔
분노
기쁨

같은 속성.

14. Value

Value는:

실제 내용 정보

예:

버럭이는 화내면 얼굴 빨개짐

같은 실제 데이터.

15. Attention 계산 흐름

순서:

1단계

Q와 K 유사도 계산

2단계

Attention Score 생성

3단계

가중치(weight) 결정

4단계

V와 곱해서 최종 정보 생성

16. Attention 수식

강의에서 나온 핵심 수식:

Attention(Q,K,V)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V

의미

QKᵀ

단어 유사도 계산

softmax

중요도 확률화

V

최종 정보 반영

17. Self-Attention 장점

핵심:

문맥 이해 능력 강화

특히:

긴 문장 처리 강함
단어 관계 파악 가능
번역 정확도 상승

18. Transformer와 관계

교수 강조:

현재 LLM 핵심 기술

임.

즉:

GPT
Claude
Gemini

같은 생성형 AI 핵심 기반.

19. 프롬프트 엔지니어링

강의 후반 주제.

정의:

AI가 원하는 답변을 하도록
입력을 설계하는 기술

20. 왜 중요한가

LLM은:

입력 품질에 따라
출력 품질 달라짐

즉:

질문 잘해야 결과 좋음

21. 프롬프트 엔지니어링 목적

핵심:

원하는 답 생성
정확도 향상
안전성 향상
AI 제어 강화

시험 관점 핵심

진짜 중요 포인트:

모델 발전 흐름

RNN → LSTM → GRU → Seq2Seq → Attention

LSTM

Cell State
Gate 구조
장기 기억

GRU

경량화
Update Gate
Reset Gate

Seq2Seq

Encoder
Decoder
Context Vector

Attention

중요한 단어 집중
가중치 부여

Self-Attention

문장 내부 관계 분석
Q/K/V

Q/K/V 의미

요소	의미
Q	질문
K	비교 기준
V	실제 정보

Attention 수식

Attention(Q,K,V)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V

Prompt Engineering

AI 입력 설계 기술
질문 품질 중요

교수 전체적으로 계속 강조한 핵심은:

LLM은 결국
문맥(Context)을 얼마나 잘 이해하느냐 싸움

이라는 거였음 ㅋㅋ

20260509 인공지능기초실습 10주차

강의 핵심 요약 — Attention & 프롬프트 엔지니어링

1. RNN 계열 모델의 발전 흐름

RNN의 문제점

2. LSTM

핵심 개념 — Cell State

게이트(Gate)

LSTM 장점

LSTM 단점

3. GRU

GRU 특징

추가 특징

핵심

4. Seq2Seq

구조

5. Context Vector

문제점

6. Attention

Attention 정의

7. Attention 동작 방식

8. Hot Dog 예시

9. Self-Attention

일반 Attention과 차이

일반 Attention

Self-Attention

10. Self-Attention 예시

11. Q, K, V

12. Query

13. Key

14. Value

15. Attention 계산 흐름

1단계

2단계

3단계

4단계

16. Attention 수식

의미

QKᵀ

softmax

V

17. Self-Attention 장점

18. Transformer와 관계

19. 프롬프트 엔지니어링

20. 왜 중요한가

21. 프롬프트 엔지니어링 목적

시험 관점 핵심

모델 발전 흐름

LSTM

GRU

Seq2Seq

Attention

Self-Attention

Q/K/V 의미

Attention 수식

Prompt Engineering

댓글