<aside> 🌠 - sequential data를 다뤄보자! ㄴ 데이터 포인트들 간의 i.i.d 가정이 더 이상 유지되지 x ㄴ 연속된 관측값들이 실제로 높은 상관관계를 가짐

최근의 관측값이 이전의 관측값들에 비해 더 많은 정보를 포함하고 있음
Markov Model ㄴ 미래에 대한 예측값들은 가장 최근의 관측값들을 제외한 나머지 관측값들에 대해서는 독립적이라고 가정하는 모형 (오직 최근 시간의 데이터들에만 영향을 받음) ㄴ 잠재 변수(latent variable)을 도입함으로서 일반화 가능
Hidden Markov Model ㄴ 잠재 변수들이 discrete이라 가정 ㄴ 관측값($x$)들은 discrete일수도, continuous일수도 있음

</aside>

13-1. Markov Models

일반적으로 sequential data는 경향성(trends)을 보임 → i.i.d 가정을 없애야 함
- 이를 확률적 모델로 표현한 것이 마르코프 모델(Markov model)임

Markov model

$p(x_1, \cdots, x_N) = \prod_{n=1}^N p(x_n|x_1, \cdots, x_{n-1})$

각각의 조건부 분포가 가장 최근의 관측값을 제외한 모든 이전 관측값들로부터 독립적이라 가정 시, **일차 마르코프 연쇄(first-order Markov chain)**을 얻을 수 있음

$p(x_1, \cdots, x_N) = \prod_{n=1}^N p(x_n|x_1, \cdots, x_{n-1}) = \ p(x_1)\prod_{n=2}^N p(x_n|x_1, \cdots, x_{n-1}) = p(x_1)\prod_{n=2}^N p(x_n|x_{n-1})$

⇒ $p(x_n|x_1, \cdots, x_{n-1}) = p(x_n|x_{n-1})$
차수를 높임으로써 더 이전 단계의 관측값에 대해서도 종속적으로 만들 수 있음(M차 markov chain)
- K개의 state를 가정 시, 요구되는 model parameter의 수는 $K^M(K-1)$개임
  - $M$의 크기에 dependent
  - markov assumption에 의해 제약되지 않으면서(차수에 무관) 제한된 수의 free variable를 통해서 모델을 특정짓고 싶다 ⇒ latent variable 도입

Untitled

$z_n$이 주어지면 $z_{n-1}$과 $z_{n+1}$은 독립임(조건부 독립)

$z_{n+1} \perp z_{n-1}|z_n$
이때, 해당 model의 joint distribution은 다음과 같이 계산 가능

(by factorization)

$p(x_1, \cdots, x_N, z_1, \cdots, z_N) \\ = p(z_1)p(x_1|z_1)p(z_2|z_1)p(x_2|z_2) \cdots p(x_n|z_n)p(z_n|z_{n-1}) \\ = p(z_1)[\prod_{n = 2}^N p(z_n|z_{n-1})]\prod_{n=1}^N p(x_n|z_n)$

$\mathbf x$: observation(observed data)
- 이산(discrete) 또는 연속(continuous)
  
  cf) 여기서는 주로 이산 데이터를 가정
- $\mathbf x_1, \cdots, \mathbf x_N$: time 1부터 $N$까지의 관측값
  - $x_i \in \{c_1, \cdots, c_m\}$, $m$: # of cases
$\mathbf z$: latent state
- $K$개의 원소를 가지는 vector($K$: # of states)
  - $(1,K)$의 one-hot vector로 주로 표현
- discrete variable이라 가정(⇒ 교재에서는 multinomial 가정)
- observation $\mathbf x$을 생성하는 데 관여하는 일종의 mixing component
$\pi$: initial probability vector
- initial latent node $z_1$은 부모 노드를 가지지 x
  - 이때, marginal distribution $p(\mathbf z_1)$을 설명할 수 있는 요소 필요
- $\pi_k \equiv p(z_{1k} = 1)$: time $1$에서의 state가 $k$일 확률
  - $P(z_1) \sim \text{Multinomial}(\pi_1, \cdots, \pi_k)$
  - $p(\mathbf z_1|\mathbf \pi) = \prod_{k=1}^K \pi_k^{z_{1k}}$

transition probabilities