6. Simple and LSTM Recurrent Neural Networks

0. Language Models

5. Language Models and Recurrent Neural Networks

1. The Simple RNN Language Model

RNN(Recurrent Neural Network)?

시퀀스 데이터를 모델링하기 위해 등장한 모델
- 기존 NN 과 다르게 기억(hidden state)를 가지고 있음
은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 가짐

→ 반복적(recurrent)
- 직전 시점의 은닉층에서 생성된 hidden states를 다음 시점의 input으로 전달
  
  ⇒ “출력 결과는 이전의 계산 결과에 영향을 받는다.”

구조

Untitled

표기

학습

과정
1. 단어들로 이루어진 시퀀스의 corpus를 준비
2. 단어들을 순서대로 RNN에 입력하고 매 단계(t)에 대한 출력분포를 계산
3. t 단계에 대한 손실함수(Cross-Entropy Loss)를 계산
4. 전체 training set에 대한 손실을 구하기 위해 평균값을 구함
  - 전체 corpus에 대한 loss와 기울기 계산은 시간이 많이 걸리므로 실제론 문장이나 문서 단위로 입력을 주기도 함
  - 혹은 SGD를 통해 최적화 하기도 함
손실 함수
- cross-entropy loss
- 예측된 확률($\hat y^{(t)}$) vs 실제 확률($y^{(t)}$)
▲ 1 step에서의 loss

▲ 전체 데이터에 대한 overall loss
- 그러나 전체 데이터에 대해 loss를 계산하기에는 많은 비용이 소모됨
  - batch 방식을 활용
Teacher Forcing
- RNN 학습 시 실제 정답을 입력으로 사용하여 모델을 훈련시키는 기술
  - 모델이 정확한 정보를 기반으로 학습하도록 함
    
    → 잘못된 예측으로 인한 오차 누적을 방지
- Teacher forcing은 학습을 안정적으로 하지만 실제 사용 시에는 이전 시간 단계에서의 예측값을 사용해야 함을 유의해야 함
  - 모델의 평가나 실제 사용 시에는 모델의 예측값을 활용해야 함
Back Propagation
- 기존 역전파와 다르게 계산에 사용된 시간, 시점의 수가 영향을 줌
  
  → 시간에 따른 역전파(BPTT, Backpropagation Through Time)를 사용
- 동일한 ****가중치 $W$를 반복적으로 적용
  
  → 단어 간 symmetric하지 않았던 NN 기반 LM의 단점을 보완

평가

Perplexity

LM은 주어진 과거 단어 정보로부터 다음에 출현할 단어의 확률 분포를 출력하는 모델임
- 대표적인 척도가 Perplexity
  
  → 출현할 단어의 확률에 대한 역수
값이 작을수록 좋은 언어 모델

실험 결과

Untitled