1. 왜 CNN이 막강한가
- 이미지 분류, 객체 탐지, 객체 분할, 동영상 처리, 자연어 처리, 음성 인식 등 까다로운 문제를 푸는 데 가장 강력한 머신러닝 모델 중 하나
CNN이 막강한 이유
1) 가중치 공유
- CNN은 가중치를 공유함으로써 매개변수를 효율적으로 활용
- 동일한 가중치 또는 매개변수로 다양한 특징을 추출
- 특징: 모델이 매개변수를 사용해 생성하는 입력 데이터의 고수준 표현
2) 자동 특징 추출
- 특징 추출 단계를 여럿 둠으로써 CNN은 데이터셋에서 자동으로 특징 표현을 학습할 수 있음
3) 계층적 학습
- 여러 계층으로 구성된 CNN 구조 덕분에 저수준부터 고수준까지의 특징을 학습할 수 있음
4) 공간적/시간적 상관관계 탐색 가능
CNN의 개선사항
1) 경사 소실 문제 극복
- 경사 소실 문제
- 신경망에서 역전파는 미분의 연쇄 법칙을 기반으로 작동
- 입력 계층 매개변수에 대한 손실 함수의 경사는 각 계층의 경사의 곱으로 나타낼 수 있음
- 해당 경사가 모두 1보다 작고, 0을 향하는 경향이 있는 경우 경사의 곱이 사라질 정도로 작은 값이 됨
- 경사 소실 문제는 네트워크 매개변수의 값을 변경할 수 없게 만들어 최적화 프로세스에 심각한 문제를 일으키고 학습을 저해함
→ ReLU와 같은 더 나은 활성화 함수와 손실 함수를 사용
2) 매개변수 최적화
- 단순한 확률적 경사 하강법 대신 적응형 모멘트 추정(
Adam) 기법에 기반한 옵티마이저 등을 활용
3) 정착화
- L2 정착화 외에 드롭아웃과 배치 정규화를 적용
CNN 아키텍처 혁신