1-1. LLM 개념
1-1-0. LLM(Large Language Model)

-
인공지능의 한 분야
- 대규모 데이터로 학습한 결과를 이용해서 인간의 언어를 처리하고, 생성하며, 맥락을 이해하는 데 활용

-
인간의 언어를 처리하는 모델
1-1-1. 언어 모델
컴퓨터에게 어떻게 말을 하고 글을 쓰는지 가르치는 것
통계적 언어 모델
-
컴퓨터가 문장이나 단어를 얼마나 자연스럽게 표현할지를 수학적으로 계산하는 방법
→ 언어의 확률적/통계적 패턴을 학습하여 문장을 이해하고 새로운 문장을 생성하는 방식
-
$n$-gram
- 일련의 단어나 문자가 얼마나 자주 함께 나타나는지를 살펴보는 방법
- $n$: 연속적으로 고려되는 단어의 수
- 다음 단어 예측 시 앞의 $n-1$개의 단어를 고려

-
그러나 가능한 모든 $n$-gram을 데이터베이스에 저장하고 있어야 함
→ 데이터베이스를 사전에 만들어 두어야 하는 번거로움
-
또한, $n$이 커질수록 문맥을 제대로 이해하지 못하는 경우가 많음
신경망 언어 모델
-
신경망 모델 활용

RNN(Recurrent Neural Networks)
- 시퀀스 데이터 처리에 적합
- 시간에 따라 변화하는 데이터 분석 → 미래 예측
- 과거의 정보가 현재의 결정에 영향을 미칠 수 있음
- 과거의 데이터를 저장하기 위한 공간이 작음 → 매우 긴 데이터를 처리하는 데 한계
LSTM(Long Short-Term Memory Networks)
- RNN이 긴 시퀀스 데이터 처리에 한계가 있다는 점을 극복하기 위해 고안된 모델
- 긴 시퀀스 정보를 기억하고 필요에 따라 이를 삭제/업데이트 할 수 있는 메커니즘
- 장기 기억을 위한 메모리를 추가로 도입