Publication: Gürültülü Gözlemler Durumunda Dengesiz Veride Öğrenme için Yeni Bir Yaklaşım
Abstract
Sınıflama çalışmalarında kullanılan sınıflama yöntemlerinin çoğunda sınıf gözlem sayılarının dengeli olduğu varsayımı vardır. Bu gibi durumlarda kurulan modeller çok gözleme sahip sınıfa ağırlık vererek tahminde bulunmaktadırlar. Böyle durumlarda sınıflayıcılar az gözlem sayısına sahip gözlemleri göz ardı ettikleri için çoğunluk sınıftan yana yanlı tahminde bulunmaktadırlar. Bu sınıf dengesizliği problemi bulunan veri setlerinde kullanılması önerilen performans ölçütleri olduğu gibi, bu problemi çözmek için önerilmiş yöntemler mevcuttur. Bu yöntemlerden en sık kullanılanlarından birisi yeniden örnekleme yöntemleridir. Bu çalışmada yeniden örnekleme yöntemlerinden olan rastgele aşırı örnekleme (RAÖ) ve sentetik azınlık aşırı örnekleme (SMOTE) yöntemlerinin sorunları ele alınmış ve bu sorunları çözmeyi amaçlayan yeni bir yeniden örnekleme yöntemi önerilmiştir. Önerilen boosting ile SMOTE (B. SMOTE) yöntemi topluluk algoritmalarında kullanılan boosting prosedürünü kullanarak gürültü tespiti yapmakta ve bu gürültü bilgilerini kullanarak SMOTE algoritması içerisinde her bir gözlem için ayrı uygun komşu sayısı belirlemektedir. Çalışmanın uygulama kısmında simülasyon verisi üzerinde yöntemler karşılaştırılmış ve görsel olarak RAÖ, ve SMOTE'un sorunları gösterildiği gibi B. SMOTE yönteminin bu sorunları aştığı ve daha iyi performans gösterdiği görülmüştür. Ayrıca 16 farklı veri seti ve 9 farklı sınıflayıcı üzerinden yapılan sınıflama modelerinin karşılaştırması sonucunda MKK ve F_1 performansları ve bu performansların sıra numaraları hesaplanmıştır. Sonuç olarak önerilen yöntemin her bir sınıflayıcıda ve tüm genel sonuçların ortalamasında diğer mevcut yeniden örnekleme yöntemlerinden daha iyi olduğu gösterilmiştir.
Most of the classification methods used in the classification studies have the asumption that the numbers of class observations are balanced. In such cases, models are predicted by giving biased weight to the the class with more observations. Therefore, the classifiers ignore the class with smaller number of observations and the majority class makes biased predictions. In data sets with class imbalance problem, there are suggested performance measures to be used as well as proposed methods to solve this problem. One of the most commonly used methods is resampling method. In this study, the problems of random oversampling (ROS) and synthetic minority oversampling technique (SMOTE), which are some of the oversampling methods, are discussed and a new resampling method is proposed to solve these problems. The proposed SMOTE with boosting (B. SMOTE) method makes noise detection using the boosting procedure in ensemble algorithms and uses this information to determine the appropriate number of neighbors for each observation within SMOTE algorithm. In the application section of the study, methods on both simulation data are compared and the problems of ROS and SMOTE are shown visually. Also, it is seen that B. SMOTE method overcame these problems and performed better. In addition, MCC and F_1 performances and ranks of these performances are calculated as a result of classification models made over 16 different data sets and 9 different classifiers. It is shown that the proposed method is better than the other resampling methods for each classifier and also in general.
Most of the classification methods used in the classification studies have the asumption that the numbers of class observations are balanced. In such cases, models are predicted by giving biased weight to the the class with more observations. Therefore, the classifiers ignore the class with smaller number of observations and the majority class makes biased predictions. In data sets with class imbalance problem, there are suggested performance measures to be used as well as proposed methods to solve this problem. One of the most commonly used methods is resampling method. In this study, the problems of random oversampling (ROS) and synthetic minority oversampling technique (SMOTE), which are some of the oversampling methods, are discussed and a new resampling method is proposed to solve these problems. The proposed SMOTE with boosting (B. SMOTE) method makes noise detection using the boosting procedure in ensemble algorithms and uses this information to determine the appropriate number of neighbors for each observation within SMOTE algorithm. In the application section of the study, methods on both simulation data are compared and the problems of ROS and SMOTE are shown visually. Also, it is seen that B. SMOTE method overcame these problems and performed better. In addition, MCC and F_1 performances and ranks of these performances are calculated as a result of classification models made over 16 different data sets and 9 different classifiers. It is shown that the proposed method is better than the other resampling methods for each classifier and also in general.
Description
Keywords
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
91
