Publication: Çok Boyutlu Lineer Regresyonda Robust ve Sparse Tahmin Metotlarının Zooteknide Kullanımı
Abstract
Bu çalışmada, veri setinde çoklu bağlantılılık, aykırı değer varlığı ve değişken sayısının gözlem sayısından çok olduğu durumların her biri için çok değişkenli istatistik yöntemlerinden regresyon analizinde kullanılacak olan farklı tahmin edicilerin performanslarının değerlendirilmesi amaçlanmıştır. Özel bir işletmeden alınan Saanen ırkı oğlakları için çeşitli vücut ölçümleri ile 6.ay canlı ağırlık tahmin edilmiştir. Veri setinde çoklu bağlantılılık, aykırı değer varlığı yanında değişken sayısının gözlem sayısından fazla olduğu durumlar için En Küçük Kareler yönteminin güvenilir sonuçlar vermemesinden dolayı robust ve sparse tahmin edicilerinin kullanımı ve performansları değerlendirilmiştir. Aykırı değer ve çoklu bağlantılılık varlığında kullanılan robust ve sparse tahmin edicisi olarak Ridge tahmin edicisi, Liu tahmin edicisi, M (Huber tipi ve Bisquare tipi için) tahmin edicisi, S tahmin edicisi, MM tahmin edicisi ve LTS tahmin edicisi kullanılmıştır. Değişken sayısının gözlem sayısından fazla olduğu koşullar için ise; Elastic Net ve LASSO tahmin edicilerinin performansları değerlendirilmiştir. Çalışmada model karşılaştırma kriteri olarak HKO, RMSE, rRMSE, MAPE, MAD R2, adj-R2 ve AIC kullanılmıştır. Çalışmanın sonucunda veri setinde çoklu bağlantılılık, aykırı değer varlığı durumunda ve değişken sayısının gözlem sayısından fazla olduğu durumlarda; Ridge tahmin edicisi, Huber tipi M tahmin edicisi ve LASSO tahmin edicisinin önerilmektedir.
In this study, it was aimed to evaluate the performance of different estimators that will be used in regression analysis, which is one of the multivariate statistical methods for each of the situations such as the number of explanatory variables more than the number of observations, multicollinearity and the data set has a lot of outliers. 6th month live weight was estimated with various body measurements for Saanen kids taken from a private farm. In the data set, the use and performance of robust and sparse estimators were evaluated because the Least Squares method did not provide reliable results for cases where the number of explanatory variables was more than the number of observations besides the presence of multicollinearity and outliers. Ridge estimator, Liu estimator, M (for Huber type and Bisquare type) estimator, S estimator, MM estimator and LTS estimator were used as robust and sparse estimators used in the presence of outliers and multicollinearity. For conditions where the number of explanatory variables is higher than the number of observations; the performances of Elastic Net and LASSO estimators were evaluated. MSE, RMSE, rRMSE, MAPE, MAD, R2, adj-R2 ve AIC were used as model comparison criteria in the study. As a result of the study, in the case of multicollinearity, outlier value(s) presence in the data set and the number of variables is higher than the number of observations; Ridge estimators, Huber type M estimators and LASSO estimators are recommended.
In this study, it was aimed to evaluate the performance of different estimators that will be used in regression analysis, which is one of the multivariate statistical methods for each of the situations such as the number of explanatory variables more than the number of observations, multicollinearity and the data set has a lot of outliers. 6th month live weight was estimated with various body measurements for Saanen kids taken from a private farm. In the data set, the use and performance of robust and sparse estimators were evaluated because the Least Squares method did not provide reliable results for cases where the number of explanatory variables was more than the number of observations besides the presence of multicollinearity and outliers. Ridge estimator, Liu estimator, M (for Huber type and Bisquare type) estimator, S estimator, MM estimator and LTS estimator were used as robust and sparse estimators used in the presence of outliers and multicollinearity. For conditions where the number of explanatory variables is higher than the number of observations; the performances of Elastic Net and LASSO estimators were evaluated. MSE, RMSE, rRMSE, MAPE, MAD, R2, adj-R2 ve AIC were used as model comparison criteria in the study. As a result of the study, in the case of multicollinearity, outlier value(s) presence in the data set and the number of variables is higher than the number of observations; Ridge estimators, Huber type M estimators and LASSO estimators are recommended.
Description
Keywords
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
71
