베이즈 정리(Bayes' Theorem)를 기반으로 하며, 변수들 사이의 독립성을 가정
→ independent R.V 가정
→ Naive라는 이름이 붙은 이유..
실제로는 변수들이 항상 독립적이지 않을 수 있지만, 간단한 가정을 통해 빠르고 간단하게 분류 작업을 수행할 수 있음
B가 주어졌을 때 사건 A의 조건부 확률은 아래와 같음
$P(A|B) = \frac{P(A\cap B)}{P(B)}$
조건부 확률을 계산하는데 사용
기본 식
$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$
응용 식

<aside> 💡 나이브 베이즈 분류기를 통해서 스팸 메일 필터를 만들어보자!
</aside>
입력 텍스트(메일의 본문)이 주어졌을 때, 입력 텍스트가 정상 메일인지 스팸 메일인지 구분하기 위한 확률을 이와 같이 표현할 수 있음
이를 베이즈 정리에 따라 식을 정리하면 다음과 같음
⇒ 입력 텍스트가 주어졌을 때, **P(정상 메일 | 입력 텍스트)**가 **P(스팸 메일 | 입력 텍스트)**보다 크다면 정상 메일이라고 볼 수 있으며, 그 반대라면 스팸 메일이라고 볼 수 있음
그런데 두 확률 모두 식을 보면 P(입력 텍스트)를 분모로 하고 있음을 알 수 있음
⇒ P(정상 메일 | 입력 텍스트) = P(입력 텍스트 | 정상 메일) × P(정상 메일)
⇒ P(스팸 메일 | 입력 텍스트) = P(입력 텍스트 | 스팸 메일) × P(스팸 메일)
메일의 본문을 단어 토큰화하여 이 단어들을 나이브 베이즈의 분류기의 입력으로 사용
※ 메일의 본문에 있는 단어가 3개라고 가정
기본적으로 나이브 베이즈 분류기는 모든 단어가 독립적이라고 가정
메일의 본문에 있는 단어 3개를 $w_1, w_2, w_3$라고 표현한다면 결국 나이브 베이즈 분류기의 정상 메일일 확률과 스탬 메일일 확률을 구하는 식은 아래와 같음
cf) 나이브 베이즈 분류기에서 토큰화 이전의 단어의 순서는 중요하지 않음
→ 즉, BoW와 같이 단어의 순서를 무시하고 오직 빈도수만을 고려
설명변수가 연속형 변수일 때
→ Gaussian Naive Bayes(가우시안 나이브 베이즈)
설명변수가 범주형 변수일 때
→ Multinomial Naive Bayes(다항 나이브 베이즈)