Publication: Destek Vektör Makineleri İçin Dengesiz Veri Yöntemlerinin Karşılaştırılması
Abstract
Amaç: Sınıflandırma algoritmalarını uygularken karşılaştığımız en büyük problem, sınıflandırma kategorilerinin eşit dağılmamasıdır. Veri kümesini dengelemek için 8 farklı yeniden örnekleme yöntemi kullanılır. Gereç ve Yöntemler: Bu yöntemleri karşılaştırmak için destek vektör makineleri [support vector machines (SVM)] kullanıldı. SVM, sınıflandırma ve regresyon analizi için kullanılan verileri analiz eden ilişkili öğrenme algoritmalarına sahip denetimli öğrenme modellerindendir. Algoritmanın ana görevi, verileri 2 sınıfa ayıran en doğru hattı veya hiper düzlemi bulmaktır. SVM, temelde doğrusal olarak ayrılabilir verileri sınıflandıran doğrusal bir sınıflandırıcıdır, ancak genel olarak özellik vektörleri doğrusal olarak ayrılamayabilir. Bu sorunun üstesinden gelmek için çekirdek hilesi kullanılır. Bulgular: Bu makalede, dengesiz veriler için farklı çekirdek işlevlerinin (doğrusal, Radyal ve Sigmoid) karşılaştırmalı bir çalışması verildi. Github’dan alınan miyokardiyal enfarktüs veri seti, performansı artırmak için 10 kat çapraz doğrulama kullanıldı. Yöntemlerin karşılaştırılmasında doğruluk, duyarlılık, özgüllük, kesinlik, Gmean ve F ölçüsü kullanıldı. Analiz, R yazılımı tarafından gerçekleştirildi. Sonuç: Sonuç olarak, doğrusal ve Sigmoid çekirdek fonksiyonları için “random over sampling examples” yeniden örnekleme yöntemi orijinal veriye göre performans ölçütlerinin sonuçlarını artırmıştır. Radyal çekirdek için Smote yönteminin performansı artmıştır. Sınıflandırma algoritmalarında verilerdeki dengesizlik yanlı sonuçlar verir ve bu problem ortadan kaldırılmalıdır.
Description
Citation
WoS Q
Scopus Q
Source
Türkiye Klinikleri Biyoistatistik Dergisi
Volume
13
Issue
2
Start Page
138
End Page
146
