<aside>
🌠 - 텍스트와 같은 이산 데이터 집합을 모델링하기 위한 생성 확률 모델
- 세 단계의 계층적 베이지안 모델
ㄴ 각 항목은 주제 집합에 대한 유한 혼합으로, 각 주제는 주제 확률에 대한 무한 혼합으로 표현됨
- Variational Methods와 EM 알고리즘을 사용하여 효율적인 근사 추론과 경험적 베이즈 매개 변수 추정을 수행
- LDA는 문서 모델링/텍스트 분류/협업 필터링에서 기존의 단어 혼합 모델(unigram 기반)과 확률적 LSI 모델과 비교하여 우수한 성능을 보임
</aside>
1. Introduction
TF-IDF → LSI → pLSI ⇒ LDA(잠재 디리클레 할당)
- 해당 논문은 텍스트 말뭉치와 기타 이산 데이터 집합을 모델링하는 문제를 다루며, 여러 방법론의 특징과 한계를 설명하고 이러한 한계를 해결하기 위한 새로운 접근 방식을 제시하고 있음
1-1. TF-IDF(Term Frequency-Inverse Document Frequency)
- 각 문서를 단어 출현 횟수의 비율로 표현하여 벡터로 변환하는 접근법
- 인터넷 검색 엔진 등에서 널리 사용되는 방식으로, 문서를 고정 길이의 숫자 목록으로 축소
- 한계
- 설명 길이의 축소가 상대적으로 적음
- 문서 간 및 문서 내 통계적인 구조를 잘 드러내지 못함
1-2. LSI(Latent Semantic Indexing)
- TF-IDF행렬(= X matrix)에 **특이값 분해(SVD)**를 적용하여 컬렉션의 대부분의 분산을 포착하는 선형 부분 공간을 식별
- linear algebraic 관점
- 이는 상당한 압축을 가능하게 하고, 기본 언어 개념(동의어 및 다의어 등)을 일부 포착할 수 있음
- 한계
- TF-IDF와 유사하게 단순한 빈도수 기반
- 단어의 순서를 무시하는 단어 가방 모델(bag of words)에 기반
3. pLSI(probabilistic Latent Semantic Indexing)
- 문서의 각 단어를 혼합 모델에서 샘플로 모델링하여 주제별 확률 분포로 표현
- 각 문서를 주제 혼합 비율의 목록으로 축소하여 확률 분포로 표현
- 한계
- 문서 수준의 생성 확률 모델이 없음
- 모델의 매개변수 수가 말뭉치 크기에 비례하여 증가
- 과적합 문제 발생 위험성
- 훈련 세트 외부 문서에 확률을 할당하는 방법이 불명확함
4. LDA(Latent Dirichlet Allocation)
- de Finetti의 교환 가능성 정리에 기반
- 문서와 단어 모두의 교환 가능성을 포착하는 혼합 모델을 제시
⇒ 문서 내 통계 구조를 상당히 포착할 수 있는 확률적 생성 모델
- 한계 해결
- 문서와 단어의 교환 가능성을 고려하여, 조건부 독립성을 유지하면서 복잡한 결합 분포를 표현
- 이는 pLSI의 과적합 문제와 외부 문서의 확률 할당 문제를 해결
<aside>
💡 - LDA는 문서와 단어의 교환 가능성을 기반으로 함
ㄴ document 내의 단어들의 순서는 exchangeable하다.
ㄴ corpus 내 document의 특정 배열도 무시 가능하다.
- 문서 내 통계 구조를 보다 효과적으로 포착하고 과적합 문제를 해결하는 효율적인 확률적 생성 모델이다!
</aside>
2. Notation and terminology
word($w$)