언어 모델링을 위한 트랜스포머 모델 만들기

언어 모델링

특정 단어 시퀀스가 주어졌을 때 그 뒤를 따를 단어 또는 단어 시퀀스의 발생 확률을 알아내는 작업
- 다양한 확률론적/통계적 기술을 사용해 언어를 모델링함으로써 계산됨
- 어떤 단어들이 함께 등장하고, 어떤 단어들이 절대 함께 나오지 않는지 등의 텍스트 말뭉치를 관찰하고 문법을 학습하는 것에서 비롯되었음
- 이러한 방식으로 언어 모델은 다양한 시퀀스가 주어졌을 때 다른 단어 또는 시퀀스가 발생할 확률적 규칙을 정함

트랜스포머 모델 아키텍처

Untitled

encoder-decoder 기반의 아키텍처
- 왼쪽: encoder
  - 시퀀스를 입력으로 가져와서 입력 시퀀스에 있는 단어 수만큼의 임베딩을 생성
  - 단어 하나 당 하나의 임베딩
- 오른쪽: decoder
  - 모델에서 만들어진 예측과 encoder를 통과시켜 얻어진 임베딩을 전달받음
아키텍처가 깊어질수록 인코더와 디코더는 여러 번 이어 붙일 수 있음

모델 구성 계층

임베딩 계층
- 시퀀스의 각 입력 단어를 숫자 벡터로 변환하는 전형적인 작업을 수행

위치 인코더

트랜스포머는 아키텍처에 순환 계층이 없는 대신 위치 인코딩이라는 방식을 활용함
- 특정 순차 패턴을 따르는 벡터가 입력 단어 임베딩에 추가됨
- 모델에서 첫 번째 단어 뒤에 두 번째 단어가 따라 나오는 것을 이해할 수 있게 하는 방식으로 생성됨
벡터는 후속 단어 사이의 규칙적인 주기성과 거리를 나타내기 위해 각각 사인 곡선 함수와 코사인 곡선 함수를 사용해 생성됨
구현

멀티-헤드 어텐션
- 어텐션 메커니즘이 자기 자신, 즉 시퀀스의 각 단어에 적용됨
  - 시퀀스의 각 단어 임베딩은 셀프-어텐션 계층을 통과해 단어 임베딩과 똑같은 길이의 개별 출력을 만들어 냄

self-attention 헤드를 여러 개 두면 여러 개의 헤드가 시퀀스 단어의 다양한 관점에 집중하도록 도와줌
- 합성곱 신경망에서 여러 개의 특징 맵이 다양한 패턴을 학습하는 방법과 유사
multi-head attention의 경우 디코더 유닛에 마스킹이 추가됨
- 시퀀스 처리의 시간 단계 t가 주어지면 t+1에서 n(시퀀스 길이)까지의 모든 단어가 마스킹 됨(숨겨짐)
훈련 시 디코더에는 두 종류의 입력이 제공됨
1. 최종 인코더에서 쿼리와 키 벡터를 입력으로 받아(마스킹되지 않은) 멀티-헤드 어텐션 계층으로 전달
→ 쿼리/키 벡터는 최종 인코더 출력을 행렬로 변환한 것
1. 이전 시간 단계에서 만들어진 예측을 순차적 입력으로 받아 마스킹된 multi-head attention 계층에 전달
- 덧셈과 계층 정규화
  - 덧셈과 계층 정규화 계층들 간에 잔차 연결이 발생
    
    → 각 인스턴스에서 입력 단어 임베딩 벡터를 multi-head attention 계층의 출력 벡터에 바로 더함으로써 잔차 연결이 설정됨
  - 네트워크 전체에서 경사를 전달하기 더 쉽고 경사가 폭발하거나 소실하는 문제를 피할 수 있음
  - 계층 간에 항등 함수를 효율적으로 학습하는 데 도움
- 순전파 계층
  - 인코더와 디코더 유닛 모두에서 시퀀스의 모든 단어에 대해 정규화된 잔차 출력 벡터가 공통 순전파 계층을 통해 전달됨
  - 단어 전체에 공통 매개변수 세트가 있기에 해당 계층은 시퀀스 전체에서 더 광범위한 패턴을 학습하는 데 도움이 됨
- 선형 및 소프트맥스 계층
  - 각 계층은 단어 당 하나씩 벡터 시퀀스를 출력함
  - 선형 계층
    - 벡터 시퀀스를 단어 사전의 길이와 똑같은 크기를 갖는 단일 벡터로 변환
  - 소프트맥스 계층
    - 출력을 확률 벡터(확률 벡터의 총합을 1로 설정)로 변환
    - 확률은 사전에서 각 단어가 시퀀스의 다음 단어로 등장할 확률을 의미

언어 모델링을 위한 트랜스포머 모델 만들기

언어 모델링

트랜스포머 모델 아키텍처

모델 구성 계층

Pytorch에서 트랜스포머 모델 정의하기