고등학생과 미국 인구조사국 직원들이 손으로 쓴 70000개의 작은 숫자 이미지를 모은 데이터셋

scikit-learn 내 데이터 셋의 일반적인 구조
DESCR 키data 키target 키데이터에 대한 조사를 진행하기 전 항상 train_test_split을 먼저 진행해야 함
훈련 세트의 경우 모든 교차 검증 폴드가 비슷해야 함
하나의 fold라도 특정 숫자가 누락되면 x
어떤 학습 알고리즘은 훈련 sample의 순서에 민감하게 반응
⇒ 데이터셋을 섞어서 이러한 문제를 해결
매우 큰 데이터셋을 효율적으로 처리할 수 있는 알고리즘
→ 한 번에 하나씩 훈련 샘플을 독립적으로 처리
훈련 시 무작위성을 사용(→ 확률적)
sklearn.SGDClassifier
클래스 A의 샘플이 클래스 B로 분류된 횟수를 세는 것
코드
from sklearn.metrics import confusion_matrix
해석
| 예측 False | 예측 True | |
|---|---|---|
| 실제 False | TN | FP |
| 실제 True | FN | TP |
오차 행렬을 통한 요약 지표

sklearn.metrics.precision_score : 정밀도sklearn.metrics.recall_score : 재현율sklearn.metrics.f1_score