
encoder
decoder
멀티-헤드 어텐션

self-attention 헤드를 여러 개 두면 여러 개의 헤드가 시퀀스 단어의 다양한 관점에 집중하도록 도와줌
multi-head attention의 경우 디코더 유닛에 마스킹이 추가됨
훈련 시 디코더에는 두 종류의 입력이 제공됨
→ 쿼리/키 벡터는 최종 인코더 출력을 행렬로 변환한 것

덧셈과 계층 정규화 계층들 간에 잔차 연결이 발생
→ 각 인스턴스에서 입력 단어 임베딩 벡터를 multi-head attention 계층의 출력 벡터에 바로 더함으로써 잔차 연결이 설정됨
네트워크 전체에서 경사를 전달하기 더 쉽고 경사가 폭발하거나 소실하는 문제를 피할 수 있음
계층 간에 항등 함수를 효율적으로 학습하는 데 도움