<aside> 🌠 - sequential data를 다뤄보자! ㄴ 데이터 포인트들 간의 i.i.d 가정이 더 이상 유지되지 x ㄴ 연속된 관측값들이 실제로 높은 상관관계를 가짐
최근의 관측값이 이전의 관측값들에 비해 더 많은 정보를 포함하고 있음
Markov Model ㄴ 미래에 대한 예측값들은 가장 최근의 관측값들을 제외한 나머지 관측값들에 대해서는 독립적이라고 가정하는 모형 (오직 최근 시간의 데이터들에만 영향을 받음) ㄴ 잠재 변수(latent variable)을 도입함으로서 일반화 가능
Hidden Markov Model ㄴ 잠재 변수들이 discrete이라 가정 ㄴ 관측값($x$)들은 discrete일수도, continuous일수도 있음
</aside>
$p(x_1, \cdots, x_N) = \prod_{n=1}^N p(x_n|x_1, \cdots, x_{n-1})$
각각의 조건부 분포가 가장 최근의 관측값을 제외한 모든 이전 관측값들로부터 독립적이라 가정 시, **일차 마르코프 연쇄(first-order Markov chain)**을 얻을 수 있음

$p(x_1, \cdots, x_N) = \prod_{n=1}^N p(x_n|x_1, \cdots, x_{n-1}) = \ p(x_1)\prod_{n=2}^N p(x_n|x_1, \cdots, x_{n-1}) = p(x_1)\prod_{n=2}^N p(x_n|x_{n-1})$
⇒ $p(x_n|x_1, \cdots, x_{n-1}) = p(x_n|x_{n-1})$
차수를 높임으로써 더 이전 단계의 관측값에 대해서도 종속적으로 만들 수 있음(M차 markov chain)

$z_n$이 주어지면 $z_{n-1}$과 $z_{n+1}$은 독립임(조건부 독립)
$z_{n+1} \perp z_{n-1}|z_n$
이때, 해당 model의 joint distribution은 다음과 같이 계산 가능
(by factorization)
$p(x_1, \cdots, x_N, z_1, \cdots, z_N) \\ = p(z_1)p(x_1|z_1)p(z_2|z_1)p(x_2|z_2) \cdots p(x_n|z_n)p(z_n|z_{n-1}) \\ = p(z_1)[\prod_{n = 2}^N p(z_n|z_{n-1})]\prod_{n=1}^N p(x_n|z_n)$
이산(discrete) 또는 연속(continuous)
cf) 여기서는 주로 이산 데이터를 가정
$\mathbf x_1, \cdots, \mathbf x_N$: time 1부터 $N$까지의 관측값
transition probabilities