[3/18] Transformers and LLM - Transformer Design Variants #7

tjdtnsu · 2025-03-11T14:25:09Z

tjdtnsu
Mar 11, 2025
Maintainer

T5, BERT, GPT
KV cache optimization
등등..

Saebitna · 2025-03-17T15:06:24Z

Saebitna
Mar 17, 2025
Collaborator

강의요약 (Transformer Design Variants)

T5: Transformer와 같은 encoder-decoder 구조. Task들을 text-to-text 형식으로 변환. Relative Positional Encoding을 사용
BERT: 양방향 Encoder-only 모델로 2개의 사전 pre-training (MLM, NSP) 학습을 함.
GPT : 단방향 Decoder-only 모델로 입력데이터를 순차적으로 처리해서 한 번에 하나씩 다음 단어를 예측하는 auto-regressive 학습진행
Relative positional encoding: 기존의 absolute positional encoding과 다르게 토큰 간의 상대적인 위치 정보를 attention score 구할 때 반영.
ALiBi : 가까울 수록 높은 가중치를 부여
RoPE : Additive 방식으로 위치 정보를 추가하지 않고 임베딩 자체를 복소수 형태로 회전 변환하여 query와 key간 inner product를 계산할 때 상대적인 위치 차이를 반영함.

0 replies

surisurikim · 2025-03-18T11:05:25Z

surisurikim
Mar 18, 2025
Collaborator

새롭게 알게 된 내용

Relative positional encoding
- 각 토큰에 절대적인 위치 정보를 부여하는 Absolute positional encoding에 비해, Relative는 토큰 간의 상대적 거리에 기반한 위치 정보를 사용한다. 즉, 각 토큰이 다른 토큰과 얼마나 떨어져 있는지를 고려한다. 이러한 차이로 인해 Relative는 Absolute보다 토큰 간의 관계를 더 효과적으로 모델링할 수 있으며, 특히 긴 시퀀스나 학습 시 보지 못한 길이의 시퀀스에서 더 좋은 성능을 보인다고 한다.
- ALiBi : 토큰 임베딩에 위치 정보를 더하는 대신, 어텐션 점수 계산 시 직접 바이어스 학을 적용 / 구현과 계산이 간단하고, 메모리 효율적이며, ALiBi를 사용한 모델은 학습 시 보지 못한 더 긴 시퀀스에도 효과적으로 일반화될 수 있었다고 함.
- RoPE
  - RoPE는 단어의 위치 정보를 벡터 회전(rotation) 으로 표현
  - 벡터를 2D 평면에서 회전시키는 방식으로, 각 단어의 위치에 따라 다르게 회전하여 상대적 위치 정보를 자연스럽게 반영
  - Transformer의 단어 표현(임베딩 벡터)을 짝을 이루는 2D 좌표 형태로 변환 후, 특정 각도(Theta)만큼 회전
  - 예를 들어, 8차원 벡터라면 [x1, x2, x3, x4, x5, x6, x7, x8] -> 2D 변환 후: [(x1, x2), (x3, x4), (x5, x6), (x7, x8)]
  - 이후 각 좌표 쌍을 특정 각도만큼 회전하여 새로운 값을 생성
  - 회전 각도는 토큰의 위치(m)에 따라 다르게 설정
    - 첫 번째 단어는 거의 회전하지 않지만, 마지막 단어는 더 많이 회전
    - 이를 통해 단어 간 상대적 위치 차이를 효과적으로 반영할 수 있음
  - RoPE를 통해 단어들의 상대적 거리(m - n)를 쉽게 계산할 수 있고,
  - transformer 모델이 긴 문장을 학습하지 않더라도 자연스럽게 확장할 수 있음. (We can extend the context length support by interpolating RoPE PE) - 보정(보간, interpolating)을 통해 원래 학습시켰던 최대 토큰보다 더 긴 문장을 처리할 수 있도록 한다

KV Cache
- 어텐션의 구성요소
  - Query (Q): 현재 단어가 “어떤 단어에 집중해야 하는지”를 찾는 역할
  - Key (K): 단어들의 “고유한 특징”을 나타냄
  - Value (V): 단어들의 실제 의미
- 기본적으로 Transformer 모델은 매번 새로운 단어를 예측할 때 이전 단어들과의 관계를 다시 계산해 한다. 즉, 문장이 길어질수록 계산량이 기하급수적으로 늘어나고 속도가 느려지며, 이는 매우 비효율적이다. 이를 해결하기 위해서 등장한 것이 KV Cache : 대화형 AI 모델(예: ChatGPT, LLaMA 등)이 더 빠르고 효율적으로 동작할 수 있도록 도와주는 중요한 기술
- KV Cache는 Transformer 모델이 이전 단어들의 Key(K)와 Value(V)를 저장해서 재사용할 수 있도록 하는 메모리로, 새로운 단어가 들어왔을 때, 이전 단어들의 K와 V를 다시 계산할 필요 없이 그냥 가져와서 사용할 수 있도록 돕는다.
- 장점 : 속도 향상 / 메모리 절약 / 긴 컨텍스트 처리 가능
- 단점 : 메모리 사용량 증가, 큰 모델일수록 많은 메모리 필요
  - 해결방법
    - GQA (Grouped Query Attention): 일부 Q들을 그룹으로 묶어 공유하여 메모리를 절약
    - 압축 및 공유 기법: K, V 값을 효율적으로 저장하여 불필요한 메모리 낭비를 줄임.

0 replies

tjdtnsu · 2025-03-18T11:24:56Z

tjdtnsu
Mar 18, 2025
Maintainer Author

T5: 모든 NLP 문제를 text-to-text 기반으로 접근. 프롬프트를 인코더에 넣으면 답변을 디코더에서 생성. encoder-decoder 모델
BERT: 문맥 양방향으로 이해하기 위한 모델. MLM/NSP 사용. encoder 모델
GPT: 다음 토큰을 예측. attention mask 필요. decoder 모델
relational positional encoding 필요한 이유: absolute는 임베딩된 정보가 전체 transformer에 뻗어 나감. 그에 비해 relative는 distance 정보가 attention score에 영향을 미침. 이는 sequence length 일반화에 도움을 줌
ALiBi는 relation distance를 qk에 더하는 것
RoPE: 2D coordinate 형식으로 생각해 rotation시켜 버리는 것. 이는 context length를 늘리는 것이 쉬움 (interpolate하면 됨)
KV cache: 프로젝션된 K와 V는 저장해서 중복 연산 안되도록 함. 생각보다 용량이 클 수 있음.
Llama2 70B MHA에서 bs=1, n_seq=4096이면 10GB, bs=16이면 160GB 필요
그래서 MHA는 비효율적이라 MQA(그런데 성능 떨어져서 안씀), GQA 씀. K, V를 G개만큼만 둠. 보통 G=N/8
FFN 대신 SwiGLU 쓰면 좋다고 함

0 replies

tjdtnsu · 2025-03-23T08:53:14Z

tjdtnsu
Mar 23, 2025
Maintainer Author

Grouped-Query Attention (GQA)

Grouped-Query Attention은 기본 Multi-Head Attention에서 Query 헤드 수와 Key/Value 헤드 수를 다르게 하여 메모리 사용과 연산 효율을 개선하는 기법입니다.

1. 기본 개념

일반적인 Multi-Head Attention에서는, 입력 (x)로부터 다음과 같이
[
Q = xW_Q,\quad K = xW_K,\quad V = xW_V
]
를 계산하며, 보통 각 행렬의 출력은 동일한 헤드 수를 갖습니다.
GQA는 Query 헤드는 그대로 유지하되, Key와 Value의 헤드 수를 줄이는 방식입니다.

2. 파라미터 재구성 (Parameter Re-mapping)

재배열(Merge/Split):
학습된 모델에서 (W_K)와 (W_V)의 가중치를 단순히 그룹화하여 합치거나 평균내는 방식으로 헤드 수를 줄입니다.
예를 들어, 원래 12개의 헤드가 있었다면 이를 6개 그룹으로 묶어 각 그룹의 가중치를 평균 또는 합치는 방식으로 Key/Value를 재구성할 수 있습니다.
선형 변환 효과:
이 과정은 파라미터 공간에서의 선형 변환에 해당하므로,
기존에 학습된 정보(예, 언어 지식, 특징 추출 능력)가 크게 훼손되지 않습니다.

3. 추론 그래프(연산 순서)의 변화 없음

Attention 연산 흐름:
Transformer의 Attention 연산은 다음 단계를 거칩니다.
1. 입력 (x)로부터 (Q, K, V) 계산
2. 헤드 차원으로 reshape
3. Attention 스코어 계산:
  [
  \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V
  ]
4. 결과 취합
GQA에서는 (W_K)와 (W_V)의 가중치 재구성만 이루어지므로, 위 Attention 계산 과정은 기본 구조가 그대로 유지됩니다.

4. 재학습 없이도 가능한 이유

파라미터 리매핑 (Linear Re-mapping):
재배열이나 평균내는 방식은 단순한 선형 변환이므로,
학습된 가중치의 정보가 어느 정도 보존됩니다.
Attention 메커니즘 유지:
Query와 Key/Value의 내적을 통한 Attention 스코어 계산 구조는 변경되지 않으므로,
모델이 학습한 패턴과 표현이 그대로 활용됩니다.
추가 파인튜닝은 옵션:
GQA 적용 후 추가 파인튜닝을 통해 성능을 더욱 개선할 수는 있으나,
기본적으로 재학습 없이도 어느 정도 동작하여 0-shot 환경에서도 사용 가능하다는 점이 핵심입니다.

요약:
GQA는 Key/Value 헤드 수를 줄이기 위해, 학습된 (W_K)와 (W_V)를 단순한 선형 변환(merge/split) 방식으로 재구성합니다.
이 방식은 모델의 기본 Attention 구조를 변경하지 않으므로, 재학습 없이도 기존 학습된 정보를 그대로 활용할 수 있습니다.

0 replies

tjdtnsu · 2025-03-23T11:56:59Z

tjdtnsu
Mar 23, 2025
Maintainer Author

극좌표계: https://ko.wikipedia.org/wiki/%EA%B7%B9%EC%A2%8C%ED%91%9C%EA%B3%84

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[3/18] Transformers and LLM - Transformer Design Variants #7

{{title}}

Replies: 5 comments

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

[3/18] Transformers and LLM - Transformer Design Variants #7

tjdtnsu Mar 11, 2025 Maintainer

Replies: 5 comments

Saebitna Mar 17, 2025 Collaborator

강의요약 (Transformer Design Variants)

surisurikim Mar 18, 2025 Collaborator

tjdtnsu Mar 18, 2025 Maintainer Author

tjdtnsu Mar 23, 2025 Maintainer Author

Grouped-Query Attention (GQA)

1. 기본 개념

2. 파라미터 재구성 (Parameter Re-mapping)

3. 추론 그래프(연산 순서)의 변화 없음

4. 재학습 없이도 가능한 이유

tjdtnsu Mar 23, 2025 Maintainer Author

tjdtnsu
Mar 11, 2025
Maintainer

Saebitna
Mar 17, 2025
Collaborator

surisurikim
Mar 18, 2025
Collaborator

tjdtnsu
Mar 18, 2025
Maintainer Author

tjdtnsu
Mar 23, 2025
Maintainer Author

tjdtnsu
Mar 23, 2025
Maintainer Author