<aside> 💡 ● VAE(Variational AutoEncoder)

사후 추론을 근사하는 인식 네트워크($q()$)를 사용
사후 추론에 대해 강한 가정이 들어감 → 과도하게 단순화된 표현을 학습할 수 있다는 한계가 존재 ● IWAE(Importance Weighted AutoEncoders)
VAE와 동일한 아키텍처를 가지지만, 중요도 가중치에서 파생된 더 엄격한 log-likelihood의 lower bound를 설정 → 사후 분포를 더 정확히 근사
다중 sample 활용 → 더 풍부한 잠재 공간 표현을 학습하며, 밀도 추정에서 VAE보다 더 나은 성능을 보임

</aside>

cf) Variational Inference

Distribution 관점 → VAE(+ VI)
Sampling 관점 → Monte Carlo Estimates, Importance Sampling

둘을 적절히 합쳐둔 것

1. Introduction

최근 심층 생성 모델 학습에 대한 관심이 다시 부상하고 있음
- 이러한 모델들은 대부분 학습 중에 사후 추론을 수행해야 하는 어려움에 직면함

Variational AutoEncoder(VAE)

생성 네트워크($p()$)와 인식 네트워크($q()$)를 결합하여 데이터 로그 가능도에 대한 변분 하한을 최대화
그러나 VAE는 사후 분포가 대략적으로 독립적이고, 신경망을 통해 예측할 수 있다는 강한 가정을 두기에, 모델의 표현력이 제한될 수 있음

Importance Weighted AutoEncoders(IWAE)

VAE와 같은 아키텍처를 사용하면서도 중요도 가중치에서 파생된 더 엄격한 로그 가능도 하한을 통해 훈련됨
- 여러 사후 분포 샘플을 생성하고, 이들의 가중치를 평균화하여 더 정확한 근사를 얻음(→ Importance Sampling 활용)
샘플 수가 많아질수록 하한은 실제 로그 가능도에 가까워지며, 이로 인해 IWAE는 VAE의 모델링 가정을 따르지 않는 복잡한 사후 분포를 학습할 수 있는 유연성을 가짐
- 이러한 접근 방식 덕분에 IWAE는 VAE보다 더 풍부한 잠재 공간 표현을 학습할 수 있으며, 이는 밀도 추정 벤치마크에서 크게 향상된 성능으로 이어짐

2. Background

VAE(Variational AutoEncoder)

generative process

은닉(hidden) 계층의 연속적인 샘플링(ancestral sampling)을 통해 생성 과정을 정의

Eqn 1
- $\theta$: VAE의 parameter vector
- $h = \{ h^1, \cdots, h^L\}$: stochastic hidden unit(= latent variable)
  - $h^0 = x$
각 항 $p(h^l|h^{l+1})$은 복잡한 비선형 관계를 나타낼 수 있음
- ex. 다층 신경망
- 각 항에 대해 sampling 및 확률 평가가 가능하다고 가정
인식 모델(recognition model, $q(h|x)$)은 factorization을 통해 표현 가능

Eqn 2.
- $L$: # of stochastic hidden layers