Publication: Genetik Algoritmaya Dayalı Yapay Sinir Ağlarında Dayanıklı Öğrenme Algoritmaları
Abstract
Regresyon analizi bağımlı ve bağımsız değişken(ler) arasındaki ilişki hakkında detaylı bilgi sağlar. Regresyon analizi, gerektirdiği varsayımlar veri tarafından sağlandığı sürece en güçlü istatistiksel yöntemlerden birisidir. Bu yöntemdeki testlerin gücü varsayımların veri tarafından sağlanıp sağlanmamasına bağlıdır. Varsayımların sağlanmamasının yanında veri içerisinde regresyon çıktıları üzerinde olumsuz etkiye sahip olabilecek problemli gözlemler olabilir. Ayrıca bağımsız değişkenlerin bağımlı değişken üzerindeki etkileri aynı anda hem doğrusal hem de doğrusal olmayan yapıya sahip olabilir. Bu gibi sorunlar artık analizi aşamasında regresyonun tanısal araçlarının kullanımı ile tespit edilebilir. Herhangi bir sorunun tespit edilmesi durumda onu ortadan kaldırabilecek yaklaşımlara başvurulmalıdır. Aksi takdirde tahminlerin tutarlılığı bozulacaktır. Tez çalışmasında bunlara benzer sorunların üstesinden gelebilecek bir methodoloji geliştirilmektedir. Bu methodoloji ağın eğitiminin geri yayılım algoritması ile yapıldığı, hata fonksiyonu olarak dayanıklı teknikler içerisinde yer alan En Küçük Mutlak Sapma (LAD) ve En Küçük Medyan Kare (LMS)'nin amaç fonksiyonlarını kullanan ve ayrıca başlangıç ağırlıklarının genetik algoritma (GA) ile belirlendiği bir yapay sinir ağı önermektedir. Bu bağlamda çalışmanın konusunu teşkil eden problem, aykırı değerlerin varlığı altında aynı anda hem doğrusal hem de doğrusal olmayan yapıdaki ilişkileri içeren gerçek yaşam verileri nasıl daha iyi açıklanabilir şeklinde tanımlanır. Bu çalışmanın özgünlüğü; yapay sinir ağının eğitimi sırasında, geri yayılım algoritmasının kullanılması, sağlam tahmin ediciler olan LAD ve LMS hata fonksiyonlarının amaç fonksiyonları olarak kullanılması ve ağın ilk ağırlıklarının GA ile belirlenmesi şeklinde verilebilir. Önerilen yaklaşımın uygulanacağı gerçek yaşam verisi regresyonun tanısal araçları tarafından incelenmiştir. Veri seti içerisinde aykırı, etkin ve çekim gücü yüksek olarak sınıflandırılabilecek gözlemler tespit edilmiştir. Verinin normal dağılıma sahip olduğu da tespit edilmiştir. Sonrasında önerilen yöntem; ağın farklı test verisi oranları, başlangıç ağırlıklarının ağın kendisi tarafından rasgele seçimi ve GA kulanılarak seçimi için ayrı ayrı çalıştırılmıştır. Ayrıca ağın eğitiminde üç farklı amaç fonksiyonu kullanılmış ve ağın performansı hata kareler ortalamasının karekökü ile değerlendirilmiştir. Bu tez kapsamında önerilen yeni yaklaşımın sonuçlar üzerindeki olumlu gelişmeleri gözlenmiştir. Anahtar Sözcükler: En küçük mutlak sapma, En küçük medyan kare, Geri yayılım algoritması, Yapay sinir ağı, Genetik algoritma
Regression analysis provides detailed insight about the relationship between the dependent variable and the independent variables(s). Regression analysis is one of the most powerful statistical methods as long as the required assumptions are hold by the data. The power of this test is based on whether the data are met these assumptions, or not. In addition to not providing the assumptions, there may be problematic observations in the data set that may have a negative impact on the regression outputs. On the other hand, the marginal effect of an independent variable on the dependent variable can be both linear and also nonlinear. These kinds of problems can be detected by using regression diagnostics in the stage of residual analysis. If there is a problem it should be solved in somehow otherwise the estimates lose their consistency. This study explores a methodology to overcome such problems. It contains actually a new hybrid artificial neural network in which a back propagation algorithm is used for the training of the network and uses different types of objective function such as Least Absolute Deviation (LAD) and Least Median Squared (LMS), which are considered as robust techniques. Also it provides modeling the linear and nonlinear part of the relationship at a same time and the values of the initial weights of network are defined by using Genetic Algorithm (GA). For this reason the problem that constitutes the subject of this study, is defined as how the relationship, which is frequently encountered in real life data and contains both linear and non-linear structures at the same time, can be better explained in the presence of outlier(s). The orginality of the work is that the network is trained with the back propagation algorithm, the error functions are seleced as LAD and LMS error functions which are used by the robust estimators, and the initial weights are defined by GA. The real life data set to which the proposed approach will be applied, was examined due to the regression diagnostics. Several outliers, leverages and influential observations were detected and it was confirmed that tha data has normal distribution. Then the proposed neural network was performed for the different sizes of the test data, by defining the initial weights by both GA and randomly via the network. Also the network was performed for the three kind of objective functions and the performance of the network was assessed due to the criterian of the square root of mean squared residuals. Finally it has been observed that the proposed method improves the results. Keywords: Least absolute deviation, least median square, Back propagation algorithm, Artificial neural network, Genetic algorithm
Regression analysis provides detailed insight about the relationship between the dependent variable and the independent variables(s). Regression analysis is one of the most powerful statistical methods as long as the required assumptions are hold by the data. The power of this test is based on whether the data are met these assumptions, or not. In addition to not providing the assumptions, there may be problematic observations in the data set that may have a negative impact on the regression outputs. On the other hand, the marginal effect of an independent variable on the dependent variable can be both linear and also nonlinear. These kinds of problems can be detected by using regression diagnostics in the stage of residual analysis. If there is a problem it should be solved in somehow otherwise the estimates lose their consistency. This study explores a methodology to overcome such problems. It contains actually a new hybrid artificial neural network in which a back propagation algorithm is used for the training of the network and uses different types of objective function such as Least Absolute Deviation (LAD) and Least Median Squared (LMS), which are considered as robust techniques. Also it provides modeling the linear and nonlinear part of the relationship at a same time and the values of the initial weights of network are defined by using Genetic Algorithm (GA). For this reason the problem that constitutes the subject of this study, is defined as how the relationship, which is frequently encountered in real life data and contains both linear and non-linear structures at the same time, can be better explained in the presence of outlier(s). The orginality of the work is that the network is trained with the back propagation algorithm, the error functions are seleced as LAD and LMS error functions which are used by the robust estimators, and the initial weights are defined by GA. The real life data set to which the proposed approach will be applied, was examined due to the regression diagnostics. Several outliers, leverages and influential observations were detected and it was confirmed that tha data has normal distribution. Then the proposed neural network was performed for the different sizes of the test data, by defining the initial weights by both GA and randomly via the network. Also the network was performed for the three kind of objective functions and the performance of the network was assessed due to the criterian of the square root of mean squared residuals. Finally it has been observed that the proposed method improves the results. Keywords: Least absolute deviation, least median square, Back propagation algorithm, Artificial neural network, Genetic algorithm
Description
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
81
