일상생활에서 사용하는 언어 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 과정
자연어 처리가 어려운 이유
자연어 처리가 가능한 영역과 발전 가능한 분야
말뭉치(corpus)
자연어 처리에서 모델을 학습시키기 위한 데이터
자연어 연구를 위해 특정한 목적에서 표본을 추출한 집합
토큰(token)
토큰화(tokenization)
불용어(stop words)
어간 추출(stemming)
단어를 기본 형태로 만드는 작업