(사실 8강 앞부분 내용임)
bottleneck problem
encoder RNN의 마지막 hidden state에 모든 정보가 쏠리는 현상
Sentiment Analysis task에서는 문장 전체를 보지 않아도 좋은 performance를 낼 수 있었지만 NMT task에서는 아님

⇒ 사람이 번역을 할 때도 source sentence를 확인하며 필요한 부분에 attention을 주는 아이디어가 제안됨

decoder의 hidden state와 encoder의 각 단계에서의 hidden state를 내적 ⇒ Attention Score 계산
각각의 attention score에 softmax() 적용
⇒ Attention Distribution 구하기
→ 번역할 때 어떤 단어에 초점을 맞춰야하는지 파악 가능
attention distribution으로 encoder states를 가중 평균 ⇒ Attention Output
[decoder hidden state; attention output]를 통해 단어 예측
Circa 2016, nlp strategy
⇒ 2021년, 모델에서 최적의 building block은 무엇일까?