Publication:
Dengesiz Veri Setlerinde Smoter ve Özellik Seçimi Yöntemleriyle Hibrit Regresyon Modeli Geliştirilmesi

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

Bu tez çalışmasında, dengesiz veri setlerine sahip regresyon problemlerinde SMOTER algoritması ve filtre tabanlı özellik seçimi yöntemlerinin etkileri incelenmiş; bu iki yaklaşımı birleştirerek hibrit bir model önerilmiştir. Çalışmada Boston, Compactiv, ForestFires, Mortgage ve Treasury veri setleri kullanılmıştır. Dengesiz veri problemi, hedef değişkenin değer dağılımındaki eşitsizlikten kaynaklanmakta ve bu durum, makine öğrenmesi modellerinin nadir (azınlık) gözlemleri yeterince öğrenememesine neden olmaktadır. Bu sorunu ele almak amacıyla öncelikle veri setleri eğitim (train) ve test olmak üzere ikiye ayrılmış; ardından z-skoru yöntemiyle değişkenler standartlaştırılmıştır. Box-plot yöntemi ile her bir veri setinde azınlık gözlemler belirlenmiş ve bu adım, Regresyon için Sentetik Azınlık Aşırı Örnekleme Tekniği (SMOTER) algoritmasının daha etkili çalışabilmesi için önemli bir ön hazırlık süreci olarak değerlendirilmiştir. Belirlenen azınlık değerler dikkate alınarak, SMOTER algoritması kullanılarak veri setleri dengelenmiştir. Dengeleme işleminin ardından, modelleme sürecinde hedef değişkenle daha yüksek ilişki gösteren değişkenlerin belirlenmesi amacıyla filtre tabanlı özellik seçimi yöntemleri uygulanmıştır. Bu yöntemler sayesinde, makine öğrenmesi modellerinin tahmin performansının artırılması hedeflenmiştir. Kullanılan filtre tabanlı yöntemler arasında Bilgi Kazancı (IG), Kazanç Oranı (GR), Simetrik Belirsizlik Katsayısı (SR), Koşullu Ortak Bilgi Maksimizasyonu (CMIM), Ortak Karşılıklı Bilgi Maksimizasyonu (JMIM), Çift Girdi Simetrik İlişki (DISR), Normalleştirilmiş Ortak Karşılıklı Bilgi Maksimizasyonu (NJMIM), Maksimum İlişki Minimum Yineleme (MRMR) ve Ortak Bilgi Maksimizasyonu (MIM) yer almaktadır. Modelleme aşamasında ise Rastgele Ormanlar, Destek Vektör Makineleri (SVM), Ağırlıklandırılmış K-En Yakın Komşu (WKNN) ve Gradyan Artırma Makineleri (GBM) algoritmaları kullanılmıştır. Modellerin performansı, Ağırlıklı Ortalama Kare Hata (WMSE), Ağırlıklı Kök Ortalama Kare Hata (WRMSE) ve Kare Hata-İlgililik Alanı (SERA) metrikleri ile değerlendirilmiştir. Elde edilen sonuçlar, SMOTER algoritmasının dengesiz veri setlerinde etkili bir dengeleme aracı olduğunu ve filtre tabanlı özellik seçimi yöntemlerinin veri setine özgü olarak dikkatle seçilmesi gerektiğini göstermektedir. Ayrıca, bu iki yöntemin birlikte kullanıldığı hibrit modelin, regresyon problemlerinde anlamlı performans artışları sağladığı ve bu yaklaşımın gelecekte daha kapsamlı araştırmalarla geliştirilmesi gerektiği sonucuna ulaşılmıştır.
In this thesis, the effects of the SMOTER algorithm and filter-based feature selection methods on regression problems with imbalanced datasets are investigated, and a hybrid model that combines these two approaches is proposed. The study utilizes five datasets: Boston, Compactiv, ForestFires, Mortgage, and Treasury. The imbalance problem arises from the unequal distribution of target variable values, which hinders machine learning models from effectively learning from rare (minority) observations. To address this issue, each dataset was first split into training and testing sets, and then standardized using the z-score method. Minority observations were identified using the box-plot method, serving as a crucial preprocessing step to enhance the effectiveness of the Synthetic Minority Over-sampling Technique for Regression (SMOTER). Based on the identified minority values, datasets were balanced using the SMOTER algorithm. Following the balancing process, filter-based feature selection methods were applied to identify variables with stronger relationships to the target variable, aiming to improve the predictive performance of machine learning models. The applied filter-based methods include Information Gain (IG), Gain Ratio (GR), Symmetrical Uncertainty (SU), Conditional Mutual Information Maximization (CMIM), Joint Mutual Information Maximization (JMIM), Double Input Symmetrical Relevance (DISR), Normalized Joint Mutual Information Maximization (NJMIM), Minimum Redundancy Maximum Relevance (MRMR), and Mutual Information Maximization (MIM). In the modeling phase, Random Forest, Support Vector Machines (SVM), Weighted K-Nearest Neighbors (WKNN), and Gradient Boosting Machines (GBM) algorithms were used. Model performance was evaluated using Weighted Mean Squared Error (WMSE), Weighted Root Mean Squared Error (WRMSE), and Squared Error-Relevance Area (SERA) metrics. The results demonstrate that the SMOTER algorithm is an effective tool for balancing imbalanced datasets, and that filter-based feature selection methods should be carefully chosen based on dataset-specific characteristics. Furthermore, the proposed hybrid approach, which combines both techniques, provides significant performance improvements in regression problems and warrants further investigation in future research.

Description

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

57

Collections

Endorsement

Review

Supplemented By

Referenced By