Publication: Ridge Regresyonda Sapma Parametresi K'nın Elde Edilmesinde Genetik Algoritma Yaklaşımı
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Abstract
Çoklu regresyon analizinde, açıklayıcı değişkenler arasında ilişki yoktur varsayımının bozulması durumunda 'çoklu bağlantı sorunu' olarak adlandırılan sorun ortaya çıkar. Bu sorunun en olumsuz etkisi en küçük kareler tahmin edicilerinin varyanslarının olması gerektiğinden daha büyük tahmin edilmesidir ki bu durum tahmin edicilerin kararlılığını bozar. Bu olumsuz etkiden kurtulmak için literatürde en yaygın olarak önerilen yöntem Ridge Regresyon yöntemidir. Bu yöntem, sorunlu olan X'X korelasyon matrisinin köşegen elemanlarına sapma parametresi olarak adlandırılan çok küçük pozitif bir 'k' sabiti ekleyip yanlı ancak daha kararlı tahminler üretir. Bu çalışmada, en uygun sapma parametresi olan k değerinin belirlenmesinde genetik algoritmanın kullanıldığı yeni bir yaklaşım sunulmaktadır. Genetik algoritma, kullanıcının belirleyeceği kriterleri göz önüne alarak çok fazla sayıda k değerinin hızlı bir şekilde incelenmesine olanak sağladığından bu alana katkı sağlamaktadır. İki farklı veriye önerilen bu yaklaşım ile literatürde önerilmiş diğer yöntemler uygulanarak sonuçların karşılaştırılması yapılmıştır.
In multiple regression analysis, the assumption on explanatory variables says that all explanatory variables are independent each other. When this assumption is ruined, a problem which is called 'multicollinearity' is arised. The multicollinearity problem has got many negative effects on the least squares estimates. One of them, which is most important, is to inflate the variances of the least squares estimates. In order to overcome this problem it is recommended in literature to use Ridge Regression method. This method finds the estimates by adding a very small positive constant to the diagonal elements of the ill-conditioned correlation matrix X'X. This makes the estimates biased but they have much smaller variances, which is good. In this study we propose a new approach based on the genetic algorithm to determine the optimal k value in ridge regression. Genetic algorithm provides for us to try very rapidly many k values and find the optimal one very correctly. This makes our approach more contributed one to the subject. Finally the proposed method applied to two different real data sets together with the methods in the literature. Then the results are presented comparatively.
In multiple regression analysis, the assumption on explanatory variables says that all explanatory variables are independent each other. When this assumption is ruined, a problem which is called 'multicollinearity' is arised. The multicollinearity problem has got many negative effects on the least squares estimates. One of them, which is most important, is to inflate the variances of the least squares estimates. In order to overcome this problem it is recommended in literature to use Ridge Regression method. This method finds the estimates by adding a very small positive constant to the diagonal elements of the ill-conditioned correlation matrix X'X. This makes the estimates biased but they have much smaller variances, which is good. In this study we propose a new approach based on the genetic algorithm to determine the optimal k value in ridge regression. Genetic algorithm provides for us to try very rapidly many k values and find the optimal one very correctly. This makes our approach more contributed one to the subject. Finally the proposed method applied to two different real data sets together with the methods in the literature. Then the results are presented comparatively.
Description
Tez (yüksek lisans) -- Ondokuz Mayıs Üniversitesi, 2014
Libra Kayıt No: 107099
Libra Kayıt No: 107099
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
97
