AFML Chapter 4. Class Weights

표본 가중값(시간 감쇠 등)과 함께 클래스 가중값을 적용하는 것이 유용할 때가 있다. 클래스 가중값을 과소 출현한 레이블의 가중값을 교정하는 것이다. 이는 빈도수가 과소출현된 Label에게 클래스 가중값을 주는 것이다.

금융시장의 참여자들에게는 과거의 시장 충격에 대한 기억을 가지고 있다. 실제로 시장 참여자들은 투자를 집행할 때에 과거의 충격에 대해 어느정도 큰 영향을 받는다. 2008년 금융 위기를 생각해 보자. 거래소가 탄생한 이후로 2008년 금융위기, 1929년 대공황과 같은 사태는 정말 드물게 일어난다.

이러한 희소한 레이블에 다른 이벤트와 동일한 가중값을 부여하면 머신러닝 알고리즘은 이러한 이벤트들을 제외하고 학습시킬 것이며, 단지 outlier처럼 취급할 것이다.

Machine Learning 에서의 Class weight 조절

데이터 과학에서도 희소한 Class들의 처리 방법은 이미 오래전부터 이뤄져 온 주제이다. 대표적인 예가 바로 Unbalanced Data인데, 표본 추출된 집단에서 어느 한 집단이 과소 대표된 것을 의미한다. 예를 들어 보자. 사회 전체적으로 보면 남성과 여성의 성비는 거의 1:1에 가깝다. 어느 설문조사가 표집을 잘못하여 남성과 여성의 비율을 8:2로 추출하였다고 하면, 이는 남성과 여성이 각각 과대표집, 과소표집 된 것이다.

이러한 unbalanced data는 ML 분류기에서 큰 착각을 불러일으킨다. 성별 예측의 문제가 주어졌다고 가정하면, 기계는 단지 아무런 특성을 보지 않고 남성이라고 답하는 것만으로도 80%의 정확도를 가지는 분류기를 만들어낸다. 극단적인 예로, 99:1의 비율을 가지고 있다고 하면 1은 단지 Outlier로 처리하여, 99%정확도를 갖는 '그럴듯한' 분류기를 만들어 낼지도 모른다.

그러나, 다행히도 Machine Learning 라이브러리에서는 대개 클래스의 가중치를 다룰 수 있는 기능이 탑재되어 있다. 예를 들어, sklearn은 표본 class[j], $j = 1, ..., J$에서의 1이 아니라 가중치 class_weight[j]를 부여해 오차를 교정한다. 이와 마찬가지로 더 높은 클래스 가중값을 label j에 주면 알고리즘이 j에 대해 더 높은 정호가도를 갖게 될 것이다. 클래스 가중값의 전체 합이 J가 되지 않을 때, 그 효과는 분류기의 규제화 변수를 변경하는것과 같다.

Random Forest

금융에 적용함에 있어 분류기 알고리즘의 표준 Label은 {-1, 1}이며, 0인 경우에는 중립 임계값인 0.5보다 약간 높거나 약간 낮은 확률로 예측되었다는 뜻이 내포되어 있다.

다른 클래스에 비해 하나의 클래스에 대한 더 높은 정확도를 선호해야 할 이유가 없으므로 이런 경우 좋은 기본값 설정 방법은 class_weight = 'balanced'로 두는 것이다.

이 선택은, 관측값에 가중값을 다시 부여하여 모든 클래스가 동일한 빈도로 나타나도록 한다. 즉, class집단이 동일한 비율로 구성되도록 가중치를 조절한다는 뜻이다.

Bagging Classifier

Bagging Algorithm에서는 Argument가 약간 다를 뿐 동일한 기능을 한다. class_weight = 'balanced_subsample'로 할 수 있는데, class_weight = 'balanced'가 전체 데이터셋이 아닌 In bag Bootstrap Sample에 적용된다는 의미이다.

Tommy blog

이 블로그 검색

令和5年5月3日気になるニュース