
SMOTE (imblearn, class imbalance)
ML & DL/데이터
2022. 9. 12. 13:15
실제 세계에서는 데이터가 고르게 분포해있지 않다. 물론 모델링할 때 ground truth에 해당하는 class값도 마찬가지이다. classification 과업에 대해서 모델링을 진행할 때 각 class에 대해서 개수의 차이가 극명하다면 개수가 많은 class 위주로 패턴을 학습할 것이다. 이는 개수가 적은 class에 대해서는 학습이 잘 이뤄지지 않아 예측단계에서 큰 오차를 보일 가능성이 높다. SMOTE SMOTE란, Synthetic Minority Over-sampling Technique의 약자인데 적은 class에 대해서 over sampling을 수행해 class별 개수를 맞춰주는 역할을 한다. SMOTE가 필요한 데이터는 일반적으로 정확도(accuracy)는 높지만 재현율(recall)이..