7-1. Transformer

Backgrounds

입력 시퀀스의 중요한 부분에 초점을 맞추어 문맥을 이해하고 적절한 출력을 생성하자!

인코더와 디코더 간의 상호작용
- 인코더) 입력 시퀀스를 임베딩하여 고차원 벡터로 변환
- 디코더) 인코더의 출력을 입력으로 받아 출력 시퀀스를 생성
어텐션 메커니즘은 인코더와 디코더 단어 사이의 상관관계를 계산하여 중요한 정보에 집중함

→ 입력 시퀀스의 각 단어가 출력 시퀀스의 어떤 단어와 관련이 있는지를 파악

각각 N개의 트랜스포머 블록으로 구성됨
- experiment: $N = 6$
- 각 블록은 multi-head attention과 feed-forward network로 구성됨
Multi-Head Attention
- 입력 시퀀스에서 쿼리(query), 키(key), 값(value) 벡터를 정의해 입력 시퀀스들의 관계를 self-attention하는 벡터 표현 방법
- 쿼리와 각 키의 유사도 계산 → 유사도를 가중치로 사용하여 값 벡터를 합산
  
  → 계산된 attention matrix는 입력 시퀀스 각 단어의 임베딩 벡터를 대체함
Feed-Forward Network
- 산출된 임베딩 벡터를 더욱 고도화
- 여러 개의 선형 계층으로 구성
  - 입력 벡터에 가중치를 곱하고, 편향을 더하며, 활성화 함수를 적용
- 학습된 가눙치들은 입력 시퀀스의 각 단어의 의미를 잘 파악할 수 있는 방식으로 갱신됨

입력 임베딩

입력 시퀀스의 각 단어는 임베딩 처리되어 벡터 형태로 변환됨
트랜스포머 모델은 순환 신경망과 달리 입력 시퀀스를 병렬 구조로 처리

→ 단어의 순서 정보를 제공하지 x

→ 위치 정보를 임베딩 벡터에 추가해 단어의 순서 정보를 모델에 반영

위치 인코딩

입력 시퀀스의 순서 정보를 모델에 전달하는 방법
- 각 단어의 위치 정보를 나타내는 벡터를 더하여 임베딩 벡터에 위치 정보 반영
$sin$ 함수와 $cos$ 함수를 사용해 생성됨
- 임베딩 벡터와 위치 정보를 결합하여 최종 입력 벡터를 생성
- 토큰의 위치마다 동일한 임베딩 벡터를 사용하지 x → 각 토큰의 위치 정보를 모델이 학습 가능