One Hot Encoding( = sparse representation)
→ 장점: 단어 벡터가 0 또는 1의 값으로 구성되어 과정이 단순함
→ 단점: 텍스트 분석에서 중요한 부분 중 하나인 단어 간의 유사성을 반영하지 못함
Word Embedding(= dense representation)
→ One-hot Encoding의 단점 보완
→ 현대의 대부분의 자연어 처리 기법들은 (ex. Word2vec, GloVe, FastText…) Word Embedding 방식을 기반으로 발전

주요 feature
Idea
⇒ 목적 함수(objective function)를 최대화

중심 단어를 기준으로 양쪽으로 윈도우 크기만큼의 단어를 맥락 단어로 설정 → 원핫 인코딩을 통해 중심 단어 벡터와 맥락 단어 벡터를 생성 → 입력 벡터/출력 벡터로 사용

맥락 벡터는 기본적으로 윈도우 개수의 2배만큼 생성됨
맥락 벡터 생성


