Publication:
Makine Öğreniminde Aşırı Uyum Problemini Çözmek İçin Kullanılan Regresyon Yöntemlerinin Karşılaştırılması

dc.contributor.advisorCengiz, Mehmet Ali
dc.contributor.authorAl-khaıat, Shubar Sahıb Jawad
dc.date.accessioned2025-12-13T08:43:59Z
dc.date.issued2022
dc.departmentLisansüstü Eğitim Enstitüsü / İstatistik Ana Bilim Dalı
dc.description.abstractMakine öğrenimindeki en temel tekniklerden biri, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi kurmak için orijinal veri noktaları arasında geçen en uygun doğrunun belirlenmesini sağlayan regresyon yöntemidir. Daha az işlem ile en uygun doğruyu belirlemek ve hata oranını düşürmek için çeşitli regresyon yaklaşımları uygulanmaktadır. Bir bağımlı değişken ve birden fazla bağımsız değişkenler arasındaki ilişkiyi tanımlamak için çoklu doğrusal regresyon analizi kullanılabilir. Açıklayıcı değişkenleri yüksek oranda ilişkiliyse, aşırı uyum nedeniyle regresyon katsayılarının en küçük kareler tahmini tutarsızdır. Model, rastgele verilere ve anlamlı olmayan özelliklere odaklanan bir eğitim veri seti üzerinden tahmin edildiğinde, aşırı uyum oluşur. Özellikle ilgili veri seti doğrusallık problemi yaşadığında doğru tahminlere yol açan bir modele ulaşmak için modele dahil edilmek üzere önemli değişkenlerin seçildiği bir yol bulmak veya aramak gerekir. Bu nedenle, Ridge yöntemi, Lasso yöntemi ve Ridge ve Lasso'nun dışbükey bir karışımı olan Elastic Net gibi çeşitli değişken tahmin yöntemleri kullanılmıştır. Lasso Regresyonu ve Ridge Regresyon, aşırı uyum ile başa çıkmak için ve çok büyük bir veri setimiz olduğunda kullanılan başlıca teknikleri arasındadır. Bu teknikler, yüksek varyansın etkisini regresyon analizinden çıkarmak için kullanılır. Doğru tahminler verir ve katsayılar ile tahminleri arasında hataların daha az karesinin alınması anlamına gelir. Bu yöntemler, düzleştirme sabitinin (λ) ve regresyon katsayılarının değerinin belirlenmesini içerir. Ridge regresyon, değişkenleri (L2) üreten sorunun boyutunu sınırlar ve β'nın kare değerini çarpan artık değerlerin karesinin toplamını azaltmaya çalışır. Aynı yöntem, katsayıların karesinin olmadığı, aksine birçok sıfıra neden olan katsayıların (L1) mutlak değerinin varlığını Ridge regresyonundan ayıran Lasso regresyonudur. Elastic-Net ise bu iki yöntemi birleştiren üçüncü bir yöntemdir. Bu yöntem en iyi özelliklerin seçimine olanak sağlamaktadır. Ridge regresyon, Lasso regresyon ve Elastic-Net, yüksek düzeyde ilişkili faktörlerle çoklu regresyon sonuçlarının daha güvenilir bir şekilde yorumlanmasına yardımcı olur. Bu tez çalışmasında, Ridge regresyon modeli ve Lasso regresyon modelinin performansına bakılmakta ve bunlar karşılaştırılmaktadır. Modellerin performansını değerlendirmek için hata kareler ortalaması (MSE) ve R-kare kullanılmıştır
dc.description.abstractOne of the most fundamental techniques in machine learning is regression analysis, it entails determining the optimal line that crosses between the original data points in order to establish the relationship between a dependent variable and one or more independent variables. To fit that line and lower the error rate while avoiding unnecessary transaction utilization, various sorts of regression approaches are applied. Multiple linear regression analysis can be used to describe the relationship between one response variable and several independent variables based on their scores. If the predictor variables are highly correlated, then the least-squares estimation of the regression coefficients is unstable because repeated samples can produce highly variable values of the regression coefficients which causes the problem of over-dispersion. Over-dispersion or overfitting occurs when the model is trained on a training data set that focuses on random data and non-significant features. And in order to arrive at a model that leads to accurate estimates, it is necessary to find or search for a way by which important variables are selected to be included in the model, especially when the study data suffers from a problem of linearity. Therefore, several variable estimation methods have been used, namely the Ridge method, the Lasso method, and Elastic Net, a convex mixture of Ridge and Lasso. Lasso Regression and Ridge Regression are among the major organization techniques used to deal with overfitting and when we have a very large data set. These techniques are used to remove the effect of high variance from the regression analysis. It gives accurate estimates and means that errors are less squared between the coefficients and their estimates. These methods include determining the value of the regularization constant (λ) and regression coefficients. Ridge regression limits the size of the issue that produces the variables (L2) and tries to reduce the sum of the square of the residual values, which multiplies the squared value β. The same method is Lasso regression, which distinguishes from ridge regression that there is no square of the coefficients but rather the presence of the absolute value of the coefficients (L 1) which causes many zeros, as for Elastic-Nate, it is the third method that combines the two methods, Lasso and Ridge. leading to the selection of the best features. Ridge regression, Lasso regression, and Elastic-Net help to interpret the results of multiple regression with highly correlated factors in a more reliable way. In this thesis, we will look at the performance of the ridge regression model and the Lasso regression model and compare them, the mean squared error (MSE) and the R-squared were utilized to evaluate the models' performance.en_US
dc.identifier.endpage76
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=CG8WvdvvxJP04Unr7YecfyBGRDvRZCull6FrBrpFHfjjo96yqmVTbB_vbeA0ToIb
dc.identifier.urihttps://hdl.handle.net/20.500.12712/48343
dc.identifier.yoktezid720420
dc.relation.publicationcategoryTezen_US
dc.subjectİstatistik
dc.subjectDoğrusal Regresyon
dc.subjectDüzeltme
dc.subjectElastik Net
dc.subjectStatisticsen_US
dc.subjectMakine Öğrenmesi
dc.subjectLinear Regressionen_US
dc.subjectCorrectionen_US
dc.subjectRidge Regresyon
dc.subjectElastic Neten_US
dc.subjectMachine Learningen_US
dc.subjectUyum
dc.subjectRidge Regressionen_US
dc.subjectAdaptationen_US
dc.subjectVaryans
dc.subjectVarianceen_US
dc.titleMakine Öğreniminde Aşırı Uyum Problemini Çözmek İçin Kullanılan Regresyon Yöntemlerinin Karşılaştırılması
dc.titleComparison of Regression Methods to Handle Overfitting in Machine Learningen_US
dc.typeMaster Thesisen_US
dspace.entity.typePublication

Files

Collections