나이브 베이즈 분류기(Naive Bayes Classifier)

0. Intro

확률 기반의 분류 알고리즘 중 하나
- 베이즈 정리(Bayes' Theorem)를 기반으로 하며, 변수들 사이의 독립성을 가정
  
  → independent R.V 가정
  
  → Naive라는 이름이 붙은 이유..
- 실제로는 변수들이 항상 독립적이지 않을 수 있지만, 간단한 가정을 통해 빠르고 간단하게 분류 작업을 수행할 수 있음

1. Background(통계 이론)

1-1. 조건부 확률

B가 주어졌을 때 사건 A의 조건부 확률은 아래와 같음

$P(A|B) = \frac{P(A\cap B)}{P(B)}$
- B사건 중에서 A사건이 동시에 발생한 경우

1-2. 베이즈 정리(Bayes’ Theorem)

조건부 확률을 계산하는데 사용
- 어떤 사건이 일어날 조건이 주어졌을 때 다른 사건이 발생할 확률을 계산
기본 식

$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$
- $P(A∣B)$: B가 일어났을 때 A가 일어날 확률 (사후 확률)
- $P(B∣A)$: A가 일어났을 때 B가 일어날 확률
- $P(A), P(B)$: 각각의 사건이 일어날 사전 확률
응용 식
- $A_1,...,A_k$가 배반 사건이고, $A_1,...A_k$의 합집합이 전체 집합(=$S$)일 때, 아래 식을 만족함

2. Naive Bayes Classifier

베이즈 정리 이론에 기반하여 특징들이 주어졌을 때 어떤 클래스에 속할 확률을 계산
각 특징들이 독립적이라는 가정 하에, 주어진 특징들로부터 클래스의 확률을 계산하여 가장 높은 확률을 가지는 클래스로 분류
- 모든 피처들이 서로 영향을 끼치지 않고 독립적으로 작용한다고 가정하는 것
- 실제로는 모든 피처가 독립적이지 않더라도, 종종 잘 작동하는 것으로 알려져 있음

2-1. 텍스트 분류에 적용하기

<aside> 💡 나이브 베이즈 분류기를 통해서 스팸 메일 필터를 만들어보자!

</aside>

입력 텍스트(메일의 본문)이 주어졌을 때, 입력 텍스트가 정상 메일인지 스팸 메일인지 구분하기 위한 확률을 이와 같이 표현할 수 있음
- P(정상 메일 | 입력 텍스트) = 입력 텍스트가 있을 때 정상 메일일 확률
- P(스팸 메일 | 입력 텍스트) = 입력 텍스트가 있을 때 스팸 메일일 확률
이를 베이즈 정리에 따라 식을 정리하면 다음과 같음
- P(정상 메일 | 입력 텍스트) = $\frac{P(입력 텍스트 | 정상 메일) × P(정상 메일)}{P(입력 텍스트)}$
- P(스팸 메일 | 입력 텍스트) = $\frac{P(입력 텍스트|스팸 메일) × P(스팸 메일)}{P(입력 텍스트)}$
⇒ 입력 텍스트가 주어졌을 때, **P(정상 메일 | 입력 텍스트)**가 **P(스팸 메일 | 입력 텍스트)**보다 크다면 정상 메일이라고 볼 수 있으며, 그 반대라면 스팸 메일이라고 볼 수 있음
그런데 두 확률 모두 식을 보면 P(입력 텍스트)를 분모로 하고 있음을 알 수 있음
- 그렇기 때문에 분모를 양쪽에서 제거하여 식을 간소화
⇒ P(정상 메일 | 입력 텍스트) = P(입력 텍스트 | 정상 메일) × P(정상 메일)

⇒ P(스팸 메일 | 입력 텍스트) = P(입력 텍스트 | 스팸 메일) × P(스팸 메일)
메일의 본문을 단어 토큰화하여 이 단어들을 나이브 베이즈의 분류기의 입력으로 사용

※ 메일의 본문에 있는 단어가 3개라고 가정
- 기본적으로 나이브 베이즈 분류기는 모든 단어가 독립적이라고 가정
- 메일의 본문에 있는 단어 3개를 $w_1, w_2, w_3$라고 표현한다면 결국 나이브 베이즈 분류기의 정상 메일일 확률과 스탬 메일일 확률을 구하는 식은 아래와 같음
  - P(정상 메일|입력 텍스트) = P($w_1$|정상 메일) x P($w_2$|정상 메일) x P($w_3$|정상 메일)
  - P(스팸 메일|입력 텍스트) = P($w_1$|스팸 메일) x P($w_2$|스팸 메일) x P($w_3$|스팸 메일)
- cf) 나이브 베이즈 분류기에서 토큰화 이전의 단어의 순서는 중요하지 않음
  
  → 즉, BoW와 같이 단어의 순서를 무시하고 오직 빈도수만을 고려

2-2. 나이브 베이즈의 종류

나이브 베이즈 분류에는 대표적으로 2가지 경우가 존재함
1. 설명변수가 연속형 변수일 때
  
  → Gaussian Naive Bayes(가우시안 나이브 베이즈)
2. 설명변수가 범주형 변수일 때
  
  → Multinomial Naive Bayes(다항 나이브 베이즈)
  - 범주가 2개밖에 없는 이진형일 경우 Bernoulli Naive Bayes(베르누이 나이브 베이즈)로 분류