5. Language Models and Recurrent Neural Networks
시퀀스 데이터를 모델링하기 위해 등장한 모델
은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 가짐
→ 반복적(recurrent)
직전 시점의 은닉층에서 생성된 hidden states를 다음 시점의 input으로 전달
⇒ “출력 결과는 이전의 계산 결과에 영향을 받는다.”

표기


과정

손실 함수

▲ 1 step에서의 loss

▲ 전체 데이터에 대한 overall loss
Teacher Forcing
RNN 학습 시 실제 정답을 입력으로 사용하여 모델을 훈련시키는 기술
모델이 정확한 정보를 기반으로 학습하도록 함
→ 잘못된 예측으로 인한 오차 누적을 방지
Teacher forcing은 학습을 안정적으로 하지만 실제 사용 시에는 이전 시간 단계에서의 예측값을 사용해야 함을 유의해야 함
Back Propagation
기존 역전파와 다르게 계산에 사용된 시간, 시점의 수가 영향을 줌
→ 시간에 따른 역전파(BPTT, Backpropagation Through Time)를 사용

동일한 ****가중치 $W$를 반복적으로 적용
→ 단어 간 symmetric하지 않았던 NN 기반 LM의 단점을 보완

Perplexity
LM은 주어진 과거 단어 정보로부터 다음에 출현할 단어의 확률 분포를 출력하는 모델임
대표적인 척도가 Perplexity
→ 출현할 단어의 확률에 대한 역수
값이 작을수록 좋은 언어 모델

실험 결과
