<aside> 🌠 - 텍스트와 같은 이산 데이터 집합을 모델링하기 위한 생성 확률 모델

</aside>

1. Introduction

TF-IDF → LSI → pLSI ⇒ LDA(잠재 디리클레 할당)

1-1. TF-IDF(Term Frequency-Inverse Document Frequency)

1-2. LSI(Latent Semantic Indexing)

3. pLSI(probabilistic Latent Semantic Indexing)

4. LDA(Latent Dirichlet Allocation)

⇒ 문서 내 통계 구조를 상당히 포착할 수 있는 확률적 생성 모델

<aside> 💡 - LDA는 문서와 단어의 교환 가능성을 기반으로 함 ㄴ document 내의 단어들의 순서는 exchangeable하다. ㄴ corpus 내 document의 특정 배열도 무시 가능하다.

</aside>

2. Notation and terminology

word($w$)