<aside>
🌠 - 대규모 데이터셋에서 연속적인 잠재 변수를 포함한 계산 불가능한 posterior probability distribution이 존재하는 경우에도 효율적인 추론과 학습을 수행하는 알고리즘을 소개
주요 기여
- variational lower bound의 reparameterization
→ 표준 확률적 경사 하강법(stochastic gradient descent)으로 최적화 가능
- i.i.d 가정을 따르는 데이터셋에서 연속적인 잠재 변수를 데이터 포인트마다 가지는 경우, 제안된 하한 추정치를 사용해 계산할 수 없는 사후 확률 분포에 대한 근사 추론 모델(인식 모델)을 맞추어 사후(posterior) 추론을 더욱 효율적으로 만들 수 있음을 보여줌
</aside>
1. Introduction
어떻게 하면 intractable posterior distribution을 가진 방향성 확률 모델에서 연속적인 잠재 변수 또는 파라미터가 효율적인 근사 추론과 학습을 수행할 수 있도록 할 수 있을까?
⇒ 변분 베이지안(VB) 접근법 활용
- 두 가지 주요 기여
- 변분 하한의 재매개변수화(reparameterization)를 통해 하한의 단순하고 미분 가능한 편향 없는 추정치(SGVB)를 제안
- Stochastic Gradient Variational Bayes
- 이는 거의 모든 모델에서 효율적인 근사 사후 추론에 사용될 수 있으며, 표준 확률적 경사 상승 기법으로 쉽게 최적화 가능
- 독립 동일 분포(i.i.d.) 데이터셋과 각 데이터 포인트마다 연속적인 잠재 변수를 가지는 경우에 대해 AEVB(AutoEncoding VB) 알고리즘을 제안
- SGVB 추정치를 사용해 인식 모델을 최적화하여 매우 효율적인 근사 사후 추론을 수행
- 비용이 많이 드는 반복적인 추론 기법 없이도 모델 파라미터를 효율적으로 학습할 수 있도록 함
- 결과적으로, 해당 방법은 인식/잡음 제거/표현 및 시각화와 같은 다양한 작업에 유용하게 활용될 수 있음
- 신경망을 인식(recognition) 모델로 사용할 경우, **변분 오토인코더(Variational AutoEncoder)**를 구현 가능
2. Method
<aside>
<img src="/icons/verified_green.svg" alt="/icons/verified_green.svg" width="40px" /> “연속적인 잠재 변수를 가진 다양한 방향성 그래프 모델에 대해 하한 추정치(확률적 목표 함수)를 도출해보자!”
- 각 데이터 포인트마다 잠재 변수를 가진 독립 동일 분포(i.i.d.) 데이터셋으로 제한(일반적인 case)
- (전역) 파라미터에 대해 maximum likelihood(ML) 또는 maximum a posteriori(MAP) 추론을 수행하고, 잠재 변수에 대해 변분 추론을 수행
</aside>
2-1. Problem scenario
Datasets
- $X = \{x^{(i)}\}{i=1}^N$
-
어떤 연속 또는 이산 변수 $x$의 $N$개의 i.i.d 표본으로 구성
-
관찰되지 않은 연속 확률 변수 $z$를 포함하는 무작위 과정에 의해 생성된다고 가정
-
해당 과정은 두 단계로 구성됨
(1) $z^{(i)}$ 값은 어떤 사전 분포 $p_{\theta^{}}(z)$로부터 생성됨
(2) $x^{(i)}$ 값은 조건부 분포 $p_{\theta^{}}(x|z)$로부터 생성됨
-
추가적으로 prior distribution( $p_{\theta^{}}(z)$)와 likelihood ($p_{\theta^{}}(x|z)$)가 매개변수화된 분포군($p_{\theta}(z)$와 $p_{\theta}(x|z)$)에서 왔다고 가정하며, 이들의 확률 밀도 함수(pdf)는 $\theta$와 $z$에 대해 거의 모든 곳에서 미분 가능하다고 가정
Problems
- 그러나, 이 과정의 많은 부분은 우리가 알 수 없음
- 실제 매개변수($\theta^*$ )와 잠재 변수( $z^{(i)}$)의 값을 알 수 x
- 우리는 다음과 같은 경우에도 효율적으로 작동하는 일반적인 알고리즘에 관심
-
난해성(intractability)
-
marginal likelihood($p_{\theta}(x) = \int p_{\theta}(z)p_{\theta}(x|z) dz$)와 실제 posterior density($p_{\theta}(z|x) = \frac{p_{\theta}(x|z)p_{\theta}(z)}{p_{\theta}(x)}$)의 적분이 난해함
⇒ EM 알고리즘이나 평균장 변분 베이지안(VB) 알고리즘을 사용할 수 없음
-
이러한 난해성은 중간 정도로 복잡한 likelihood function($p_{\theta}(x|z)$)에서 흔히 나타남
ex. NN with nonlinear hidden layer
-
대규모 데이터셋
- 데이터가 너무 많아서 배치 최적화가 비용이 많이 드는 경우
- sampling을 기반으로 하는 Monte Carlo EM 등등은 매우 속도가 느릴 수 밖에,,
⇒ 작은 미니배치나 단일 데이터 포인트를 사용하여 매개변수 업데이트를 수행
marginal density나 posterior distribution에 대한 일반적인 단순화 가정을 하지 않으며, 난해한 경우에도 효율적으로 작동하도록 함
Solutions

Amortized Variational Inference
⇒ function 활용, 이때 Neural Network가 function의 역할 수행
- 세 가지 주요 문제를 해결하기 위한 방법을 제안
- 매개변수 $\theta$의 효율적인 근사 maximum likelihood(ML) 또는 maximize a posteriori(MAP) 추정
- 주어진 관측값 $x$와 선택된 매개변수 $\theta$에 대해 잠재 변수 $z$의 효율적인 근사 posterior inference
- 변수 $x$의 효율적인 근사 marginal inference
- 이를 위해, 계산할 수 없는 실제 사후 확률 $p_{\theta}(z|x)$의 근사로서의 recognition model $q_{\phi}(z|x)$을 도입
- 인수분해되지 않으며, 매개변수 $\phi$는 closed form의 기댓값에서 계산되지 않음
- 대신, 생성 모델 매개변수 $\theta$와 함께 인식 모델의 매개변수 $\phi$를 공동으로 학습
- 인식 모델 $q_{\phi}(z|x)$는 probabilistic encoder로, 생성 모델 $p_{\theta}(x|z)$는 probabilistic decoder로 해석될 수 있음
2-2. The variational bound