핸즈온 9장_비지도 학습

9-0. 비지도학습

실생활에서 사용할 수 있는 데이터는 대부분 레이블이 없음
- 사람이 일일이 데이터에 라벨을 부여하기에는 시간과 비용이 많이 소요됨
비지도 학습의 종류
- 군집(cluatering)
  - 비슷한 샘플을 클러스터로 모음
  - 데이터 분석, 고객 분류, 추천 시스템, 검색 엔진, 이미지 분할, 준지도학습, 차원 축소 등에서 활용 가능
- 이상치 탐지(outlier detection)
  - ‘정상’ 데이터가 어떻게 보이는지를 학습 → 이후 비정상 샘플을 감지
  - ex) 제조 라인에서 결함 제품을 감지, 시계열 데이터에서 새로운 트렌드 찾기
- 밀도 추정(density estimation)
  - 데이터셋 생성 확률 과정의 확률 밀도 함수(pdf)를 추정
  - 이상치 탐지에 널리 사용됨 → 주로 밀도가 매우 낮은 영역에 놓인 샘플이 이상치일 가능성이 높음
  - 데이터 분석과 시각화에도 유용함

9-1. 군집

군집화(clustering)
- 비슷한 샘플을 구별해 하나의 클러스터(= 군집) 또는 비슷한 샘플의 그룹으로 할당하는 작업
군집화 활용 영역

9-1-1. k-평균

몇 번의 반복으로 데이터셋을 빠르고 효율적으로 클러스터로 묶을 수 있는 간단한 알고리즘
- 각 클러스터의 중심(= centroid)을 찾고 가장 가까운 클러스터에 샘플을 할당
  
  → 결정 경계를 보로노이 다이어그램을 통해 확인 가능
- 알고리즘이 찾을 클러스터의 개수(k)를 지정해 주어야 함
- labels_ 인스턴스를 통해 알고리즘이 샘플에 할당한 클러스터를 확인 가능
k-means 알고리즘은 클러스터의 크기가 많이 다른 경우 잘 작동하지 않음
- 샘플을 클러스터에 할당 시 오직 센트로이드까지의 ‘거리’만 고려하기 때문
하드 군집 vs 소프트 군집
- 하드 군집(hard clustering): 샘플을 하나의 클러스터에 할당
- 소프트 군집(soft clustering): 샘플에 점수를 부여(ex. 샘플과 센트로이드 사이의 거리, 유사도 점수 등)
  - kmeans.transform() : 샘플과 각 센트로이드 사이의 거리 반환
알고리즘 작동 원리
- 센트로이드가 주어지는 경우 이를 활용하여 클러스터 할당
- 센트로이드가 주어지지 x
  - 처음: 랜덤 설정
  - 이후 샘플에 레이블을 할당하고 센트로이드를 업데이트하고, 샘플에 레이블을 할당하고 센트로이드를 업데이트
    
    → 센트로이드에 변화가 없을 때까지 반복
- kmeans 알고리즘은 대부분 수렴이 보장되지만, 센트로이드 초기화에 따라 최적 솔루션으로 수렴하지 못할 수도 있음(→ 지역 최적점으로 수렴하는 경우)
센트로이드 초기화
1. 근사하게 위치를 선정(ex. 또 다른 군집 알고리즘을 먼저 실행해 보기)
2. 랜덤 초기화를 다르게 하여 여러 번 알고리즘을 실행 → 최적 솔루션 선택
  - 랜덤 초기화 횟수: n_init 매개변수로 조절
- 최선의 솔루션
  - 평가 지표) inertia(= 각 샘플과 가장 가까운 센트로이드 사이의 평균 제곱 거리)
    
    → 확인: kmeans.inertia_
  - KMeans 클래스는 알고리즘을 n_init번 실행 후 이너셔가 가장 낮은 모델을 반환
  - kmeans.score(): 이너셔의 음숫값 반환
- k-means++ 초기화 알고리즘
k-means 속도 개선과 미니배치 k-means
- 불필요한 거리 계산을 많이 피하기 위해 삼각 부등식을 활용
  
  ⇒ 두 점 사이의 직선은 항상 가장 짧은 거리
- 전체 데이터셋을 사용해 반복하는 것이 아닌 각 반복마다 미니배치를 사용해 센트로이드를 조금씩 이동 가능
  - 알고리즘 속도 개선 & 메모리 절약
  - sklearn.MiniBatchKMeans 클래스를 통해 구현 가능
  - MiniBatchKMeans.partial_fit() 메서드를 통해 한 번에 하나의 미니배치를 전달 가능
- 미니배치 k-means 알고리즘은 일반 k-means 알고리즘보다 속도는 빠르지만 inertia는 일반적으로 조금 더 나쁨
최적 클러스터 개수 찾기
- k가 너무 작으면 별개의 클러스터를 합치고, k가 너무 크면 하나의 클러스터가 여러 개로 나뉘는 문제 발생
- 선택 방법
  1. Elbow Method
    
    → inertia 감소 비율이 급격히 감소하는 지점을 최적 k로 선택
  2. 실루엣 점수
    - 모든 샘플에 대한 실루엣 계수의 평균
    - -1에서 1 사이의 값을 가짐
      - +1에 가까울수록 자신의 클러스터 안에 잘 속해 있고 다른 클러스터와는 멀리 떨어져 있음
      - 0에 가까우면 클러스터 경계에 위치함을 의미
      - -1에 가까우면 해당 샘플이 잘못된 클러스터에 할당되었음을 의미
    - 실루엣 점수를 계산하기 위해 silhouette_score() 함수를 사용
    - 실루엣 다이어그램
      - 모든 샘플의 실루엣 계수를 할당된 클러스터와 계숫값으로 정렬하여 시각화 한 도표
      - 높이: 클러스터가 포함하고 있는 샘플의 개수
      - 너비: 해당 클래스에 포함된 샘플의 정렬된 실루엣 계수
        
        → 넓을수록 good
      - 수직선: 각 클러스터 개수에 해당하는 실루엣 점수
        
        한 클러스터의 샘플 부분이 해당 점수보다 낮은 계수를 가지는 경우 클러스터의 샘플이 다른 클러스터랑 너무 가깝다는 것을 의미 → bad

9-1-2. k-means의 한계

장점
단점

9-1-3. 군집을 사용한 이미지 분할

시맨틱 분할(semantic segmentation): 동일한 종류의 물체에 속한 모든 픽셀을 같은 세그먼트에 할당하는 방식
k-means 알고리즘은 비슷한 크기의 클러스터를 만드는 경향이 있음