Publication: Farklı Veri Yapılarında Uzaklık Temelli Regresyon Modellerinin İncelenmesi
Abstract
Basit ve çoklu doğrusal regresyon analizi sonucunda elde edilecek olan regresyon modeline ait parametre kestirimlerinin güvenilir olabilmesi için modelle ilgili bazı varsayımların sağlanabilmesi gereklidir. Parametre tahmin yöntemlerinde varsayımların sağlanamadığı durumlar için çözüm olarak geliştirilen az sayıdaki modellerden biri Uzaklık Temelli Regresyon yöntemleridir. Bu yöntemlerin amacı kategorik veya gerçek değerli ve kategorik açıklayıcı değişkenlerin bir karışımı dahil olmak üzere, ölçüm değer tahmin edicileri ile problemleri doğru bir şekilde ele almaktır. Uzaklık temelli regresyon, karışık tipte açıklayıcı değişkenler kullanıldığında doğrusal regresyon modellerinde parametre tahmini için alternatif bir yöntemdir. Uzaklık temelli regresyon klasik doğrusal regresyona benzer, ancak açıklayıcı değişkenler ham değerler yerine uzaklık ölçülerine göre ölçülmektedir. Bu çalışmada, Euclidean, Gower ve Manhattan uzaklık ölçülerinin Binom, Normal, t, Ki-Kare ve Poisson dağılışlarına ait üretilmiş, örnek büyüklükleri 10, 25, 50, 100, 250 ve 500 olan veri setleri ve kesikli ve sürekli dağılış gösteren gerçek veri setleri (10, 50 ve 100 örnek büyüklüğünde) üzerinde etkisi ile Doğrusal Regresyon yönteminden elde edilen sonuçlara göre karşılaştırma yaparak belirlenmesi amaçlanmıştır. Analizi gerçekleştirmek için R paketi olan 'dbstats', 'cluster' ve 'tidyverse' kullanılmıştır. Sonuç olarak, Poisson dağılışına sahip verilerde özellikle küçük örnek büyüklüklerinde (n<50) Manhattan uzaklığının kullanılmasının başarısız sonuçlar üretebileceği belirlenmiştir. Örnek büyüklüklerine göre farklı dağılışlar içerisinde Gower ve Euclidean uzaklıkları arasında kayda değer farklılık olmamasına rağmen bazı dağılışlarda Euclidean uzaklık ölçüsü kullanımının dalgalanmaya sebep olan sonuçlar ürettiği belirlenmiştir. Ancak, Gower uzaklığı daha sabit bir yapıya sahip olması nedeniyle daha uygun bir seçim olarak önerilebileceği anlaşılmıştır. En Küçük Kareler tahmin yönteminin uygulanabilirliği için bu çalışmada da bahsedilen gerekli olan varsayımların sağlanamadığı durumlarda Uzaklık Temelli Regresyon yöntemlerinin kullanılması önerilebilir.
In order to the parameter estimations of the regression model to be obtained as a result of simple and multiple linear regression analysis to be reliable, some assumptions about the model must be provided. One of the few models developed as a solution for situations where assumptions cannot be provide in parameter estimation methods is Distance Based Regression methods. The purpose of these methods is to properly address problems with measure value estimators, including categorical or a mix of real-valued and categorical explanatory variables. Distance-based regression is an alternative method for parameter estimation in linear regression models when mixed-type explanatory variables are used. Distance-based regression is similar to classical linear regression, except that explanatory variables are measured by distance measures rather than raw values. In this study, datasets with sample sizes of 10, 25, 50, 100, 250 and 500 produced for Binomial, Normal, t, Chi-square and Poisson distributions of Euclidean, Gower and Manhattan distance measures and real data with discrete and continuous distribution. It was aimed to determine the effect on the data sets (10, 50 and 100 sample sizes) by comparing the results obtained from the Linear Regression method. R packages 'dbstats', 'cluster' and 'tidyverse' were used to perform the analysis. As a result, it has been determined that the use of Manhattan distance in data with Poisson distribution may produce unsuccessful results, especially in small sample sizes (n<50). Although there is no significant difference between Gower and Euclidean distances in different distributions according to sample sizes, it has been determined that the use of Euclidean distance measure in some distributions produces results that cause fluctuation. However, it has been understood that the Gower distance can be recommended as a more suitable choice since it has a more stable structure. For the applicability of the Least Square Estimation method, it may be recommended to use Distance Based Regression methods in cases where the necessary assumptions mentioned in this study cannot be met.
In order to the parameter estimations of the regression model to be obtained as a result of simple and multiple linear regression analysis to be reliable, some assumptions about the model must be provided. One of the few models developed as a solution for situations where assumptions cannot be provide in parameter estimation methods is Distance Based Regression methods. The purpose of these methods is to properly address problems with measure value estimators, including categorical or a mix of real-valued and categorical explanatory variables. Distance-based regression is an alternative method for parameter estimation in linear regression models when mixed-type explanatory variables are used. Distance-based regression is similar to classical linear regression, except that explanatory variables are measured by distance measures rather than raw values. In this study, datasets with sample sizes of 10, 25, 50, 100, 250 and 500 produced for Binomial, Normal, t, Chi-square and Poisson distributions of Euclidean, Gower and Manhattan distance measures and real data with discrete and continuous distribution. It was aimed to determine the effect on the data sets (10, 50 and 100 sample sizes) by comparing the results obtained from the Linear Regression method. R packages 'dbstats', 'cluster' and 'tidyverse' were used to perform the analysis. As a result, it has been determined that the use of Manhattan distance in data with Poisson distribution may produce unsuccessful results, especially in small sample sizes (n<50). Although there is no significant difference between Gower and Euclidean distances in different distributions according to sample sizes, it has been determined that the use of Euclidean distance measure in some distributions produces results that cause fluctuation. However, it has been understood that the Gower distance can be recommended as a more suitable choice since it has a more stable structure. For the applicability of the Least Square Estimation method, it may be recommended to use Distance Based Regression methods in cases where the necessary assumptions mentioned in this study cannot be met.
Description
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
43
