<aside> 🌠 - 대규모 데이터셋에서 연속적인 잠재 변수를 포함한 계산 불가능한 posterior probability distribution이 존재하는 경우에도 효율적인 추론과 학습을 수행하는 알고리즘을 소개

주요 기여

variational lower bound의 reparameterization → 표준 확률적 경사 하강법(stochastic gradient descent)으로 최적화 가능
i.i.d 가정을 따르는 데이터셋에서 연속적인 잠재 변수를 데이터 포인트마다 가지는 경우, 제안된 하한 추정치를 사용해 계산할 수 없는 사후 확률 분포에 대한 근사 추론 모델(인식 모델)을 맞추어 사후(posterior) 추론을 더욱 효율적으로 만들 수 있음을 보여줌

</aside>

1. Introduction

어떻게 하면 intractable posterior distribution을 가진 방향성 확률 모델에서 연속적인 잠재 변수 또는 파라미터가 효율적인 근사 추론과 학습을 수행할 수 있도록 할 수 있을까?

⇒ 변분 베이지안(VB) 접근법 활용

두 가지 주요 기여
1. 변분 하한의 재매개변수화(reparameterization)를 통해 하한의 단순하고 미분 가능한 편향 없는 추정치(SGVB)를 제안
  - Stochastic Gradient Variational Bayes
  - 이는 거의 모든 모델에서 효율적인 근사 사후 추론에 사용될 수 있으며, 표준 확률적 경사 상승 기법으로 쉽게 최적화 가능
2. 독립 동일 분포(i.i.d.) 데이터셋과 각 데이터 포인트마다 연속적인 잠재 변수를 가지는 경우에 대해 AEVB(AutoEncoding VB) 알고리즘을 제안
  - SGVB 추정치를 사용해 인식 모델을 최적화하여 매우 효율적인 근사 사후 추론을 수행
  - 비용이 많이 드는 반복적인 추론 기법 없이도 모델 파라미터를 효율적으로 학습할 수 있도록 함
결과적으로, 해당 방법은 인식/잡음 제거/표현 및 시각화와 같은 다양한 작업에 유용하게 활용될 수 있음
신경망을 인식(recognition) 모델로 사용할 경우, **변분 오토인코더(Variational AutoEncoder)**를 구현 가능

2. Method

<aside> <img src="/icons/verified_green.svg" alt="/icons/verified_green.svg" width="40px" /> “연속적인 잠재 변수를 가진 다양한 방향성 그래프 모델에 대해 하한 추정치(확률적 목표 함수)를 도출해보자!”

각 데이터 포인트마다 잠재 변수를 가진 독립 동일 분포(i.i.d.) 데이터셋으로 제한(일반적인 case)
(전역) 파라미터에 대해 maximum likelihood(ML) 또는 maximum a posteriori(MAP) 추론을 수행하고, 잠재 변수에 대해 변분 추론을 수행

</aside>

2-1. Problem scenario

Datasets

$X = \{x^{(i)}\}{i=1}^N$
- 어떤 연속 또는 이산 변수 $x$의 $N$개의 i.i.d 표본으로 구성
- 관찰되지 않은 연속 확률 변수 $z$를 포함하는 무작위 과정에 의해 생성된다고 가정
- 해당 과정은 두 단계로 구성됨
  
  (1) $z^{(i)}$ 값은 어떤 사전 분포 $p_{\theta^{}}(z)$로부터 생성됨 (2) $x^{(i)}$ 값은 조건부 분포 $p_{\theta^{}}(x|z)$로부터 생성됨
- 추가적으로 prior distribution( $p_{\theta^{}}(z)$)와 likelihood ($p_{\theta^{}}(x|z)$)가 매개변수화된 분포군($p_{\theta}(z)$와 $p_{\theta}(x|z)$)에서 왔다고 가정하며, 이들의 확률 밀도 함수(pdf)는 $\theta$와 $z$에 대해 거의 모든 곳에서 미분 가능하다고 가정

Problems

그러나, 이 과정의 많은 부분은 우리가 알 수 없음
- 실제 매개변수($\theta^*$ )와 잠재 변수( $z^{(i)}$)의 값을 알 수 x
우리는 다음과 같은 경우에도 효율적으로 작동하는 일반적인 알고리즘에 관심
1. 난해성(intractability)
  - marginal likelihood($p_{\theta}(x) = \int p_{\theta}(z)p_{\theta}(x|z) dz$)와 실제 posterior density($p_{\theta}(z|x) = \frac{p_{\theta}(x|z)p_{\theta}(z)}{p_{\theta}(x)}$)의 적분이 난해함
    
    ⇒ EM 알고리즘이나 평균장 변분 베이지안(VB) 알고리즘을 사용할 수 없음
  - 이러한 난해성은 중간 정도로 복잡한 likelihood function($p_{\theta}(x|z)$)에서 흔히 나타남 ex. NN with nonlinear hidden layer
2. 대규모 데이터셋
  - 데이터가 너무 많아서 배치 최적화가 비용이 많이 드는 경우
    - sampling을 기반으로 하는 Monte Carlo EM 등등은 매우 속도가 느릴 수 밖에,,
  ⇒ 작은 미니배치나 단일 데이터 포인트를 사용하여 매개변수 업데이트를 수행

marginal density나 posterior distribution에 대한 일반적인 단순화 가정을 하지 않으며, 난해한 경우에도 효율적으로 작동하도록 함

Solutions

Amortized Variational Inference
⇒ function 활용, 이때 Neural Network가 function의 역할 수행

Amortized Variational Inference ⇒ function 활용, 이때 Neural Network가 function의 역할 수행