핸즈온 7장_앙상블 학습과 랜덤 포레스트 | Notion

7-0. 앙상블 학습

일련의 예측기(= 분류, 회귀 등)로부터 예측을 수집 후 결합하여 더 좋은 예측을 도출하는 방법

ex) 훈련 세트로부터 무작위로 각기 다른 서브셋을 만들어 일련의 결정 트리 분류기를 훈련시킬 수 있음 ⇒ 랜덤 포레스트

각각의 약한 학습기(weak learner, 랜덤 추출보다 조금 더 높은 성능을 내는 분류기)일지라도 충분히 많고 다양하게 결합하여 강한 학습기(strong learner, 높은 정확도)로 발전할 수 있음

⇒ 큰 수의 법칙

7-1. 투표 기반 분류기(보팅, Voting)

각 분류기의 예측을 모아서 가장 많이 선택된 클래스로 최종 예측하는 방식
- 가정) 모든 분류기가 완벽하게 독립적이고 오차에 상관관계가 없다.
  
  → 앙상블은 예측기가 가능한 한 서로 독립적일 때 최고 성능 발휘
직접 투표 분류기(hard voting): 다수결 투표
간접 투표 분류기(soft voting)
- 개별 분류기의 예측을 평균 내어 확률이 가장 높은 클래스를 예측할 수 있음
- 확률이 높은 투표에 더 큰 비중

7-2. 배깅과 페이스팅

Untitled

배깅(bagging, bootstrap aggregating): 훈련 세트에서 중복을 허용하여 샘플링하는 방식
페이스팅(pasting): 중복을 허용하지 않고 샘플링하는 방식
일반적으로 앙상블 결과는 원본 데이터셋으로 하나의 예측기를 훈련시킬 때와 비교해 편향은 비슷하지만 분산은 감소
예측기는 모두 동시에 다른 CPU 코어 혹은 서버에서 병렬 학습 가능 → 높은 확장성

7-2-1. 사이킷런의 배깅과 페이스팅

sklearn.BaggingClassifier, sklearn.BaggingRegressor 를 통해 구현 가능
앙상블 예측과 결정 경계
- 앙상블은 비슷한 편향에서 더 작은 분산을 만듦
  
  (훈련 세트의 오차 수가 거의 비슷하지만 결정 경계는 덜 불규칙함)

Untitled

7-2-2. oob 평가

배깅 사용의 단점: 어떤 샘플은 한 예측기를 위해 여러 번 샘플링되고 어떤 것은 전혀 선택되지 않을 수 있음
- BaggingClassifier는 기본적으로 중복을 허용하여 훈련 세트 크기만큼 m개 샘플을 선택
  
  (bootstrap=True)