텍스트(문장) 내에서 단어를 찾고 분류하는 작업

context window를 활용하여 간단히 구현 가능


input data가 변화 했을 때 output이 얼마만큼 변화하는지를 나타내는 값
multi-input, one-output case
각 input에 대한 partial derivative를 모은 vector가 gradient

multi-input, multi-output case
gradient를 matrix 형태로 표현 → Jacobian
jacobian matrix는 gradients의 일반화된 형태

chain rule을 multi-variable 함수에 적용하면 jacobian의 곱으로 확장 가능

chain rule을 사용하면 계산을 재사용할 수 있게 됨


각각을 부분으로 나누기

Chain Rule 적용
Jacobian 구하기

Neural Network 연산은 아래와 같은 그래프 형태로 표현할 수 있음

output부터 시작하여 역으로 gradients를 계산할 수 있음 ⇒ back propagation

