Publication: Makine Öğreniminde Aşırı Uyum Problemini Çözmek İçin Kullanılan Regresyon Yöntemlerinin Karşılaştırılması
| dc.contributor.advisor | Cengiz, Mehmet Ali | |
| dc.contributor.author | Al-khaıat, Shubar Sahıb Jawad | |
| dc.date.accessioned | 2025-12-13T08:43:59Z | |
| dc.date.issued | 2022 | |
| dc.department | Lisansüstü Eğitim Enstitüsü / İstatistik Ana Bilim Dalı | |
| dc.description.abstract | Makine öğrenimindeki en temel tekniklerden biri, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi kurmak için orijinal veri noktaları arasında geçen en uygun doğrunun belirlenmesini sağlayan regresyon yöntemidir. Daha az işlem ile en uygun doğruyu belirlemek ve hata oranını düşürmek için çeşitli regresyon yaklaşımları uygulanmaktadır. Bir bağımlı değişken ve birden fazla bağımsız değişkenler arasındaki ilişkiyi tanımlamak için çoklu doğrusal regresyon analizi kullanılabilir. Açıklayıcı değişkenleri yüksek oranda ilişkiliyse, aşırı uyum nedeniyle regresyon katsayılarının en küçük kareler tahmini tutarsızdır. Model, rastgele verilere ve anlamlı olmayan özelliklere odaklanan bir eğitim veri seti üzerinden tahmin edildiğinde, aşırı uyum oluşur. Özellikle ilgili veri seti doğrusallık problemi yaşadığında doğru tahminlere yol açan bir modele ulaşmak için modele dahil edilmek üzere önemli değişkenlerin seçildiği bir yol bulmak veya aramak gerekir. Bu nedenle, Ridge yöntemi, Lasso yöntemi ve Ridge ve Lasso'nun dışbükey bir karışımı olan Elastic Net gibi çeşitli değişken tahmin yöntemleri kullanılmıştır. Lasso Regresyonu ve Ridge Regresyon, aşırı uyum ile başa çıkmak için ve çok büyük bir veri setimiz olduğunda kullanılan başlıca teknikleri arasındadır. Bu teknikler, yüksek varyansın etkisini regresyon analizinden çıkarmak için kullanılır. Doğru tahminler verir ve katsayılar ile tahminleri arasında hataların daha az karesinin alınması anlamına gelir. Bu yöntemler, düzleştirme sabitinin (λ) ve regresyon katsayılarının değerinin belirlenmesini içerir. Ridge regresyon, değişkenleri (L2) üreten sorunun boyutunu sınırlar ve β'nın kare değerini çarpan artık değerlerin karesinin toplamını azaltmaya çalışır. Aynı yöntem, katsayıların karesinin olmadığı, aksine birçok sıfıra neden olan katsayıların (L1) mutlak değerinin varlığını Ridge regresyonundan ayıran Lasso regresyonudur. Elastic-Net ise bu iki yöntemi birleştiren üçüncü bir yöntemdir. Bu yöntem en iyi özelliklerin seçimine olanak sağlamaktadır. Ridge regresyon, Lasso regresyon ve Elastic-Net, yüksek düzeyde ilişkili faktörlerle çoklu regresyon sonuçlarının daha güvenilir bir şekilde yorumlanmasına yardımcı olur. Bu tez çalışmasında, Ridge regresyon modeli ve Lasso regresyon modelinin performansına bakılmakta ve bunlar karşılaştırılmaktadır. Modellerin performansını değerlendirmek için hata kareler ortalaması (MSE) ve R-kare kullanılmıştır | |
| dc.description.abstract | One of the most fundamental techniques in machine learning is regression analysis, it entails determining the optimal line that crosses between the original data points in order to establish the relationship between a dependent variable and one or more independent variables. To fit that line and lower the error rate while avoiding unnecessary transaction utilization, various sorts of regression approaches are applied. Multiple linear regression analysis can be used to describe the relationship between one response variable and several independent variables based on their scores. If the predictor variables are highly correlated, then the least-squares estimation of the regression coefficients is unstable because repeated samples can produce highly variable values of the regression coefficients which causes the problem of over-dispersion. Over-dispersion or overfitting occurs when the model is trained on a training data set that focuses on random data and non-significant features. And in order to arrive at a model that leads to accurate estimates, it is necessary to find or search for a way by which important variables are selected to be included in the model, especially when the study data suffers from a problem of linearity. Therefore, several variable estimation methods have been used, namely the Ridge method, the Lasso method, and Elastic Net, a convex mixture of Ridge and Lasso. Lasso Regression and Ridge Regression are among the major organization techniques used to deal with overfitting and when we have a very large data set. These techniques are used to remove the effect of high variance from the regression analysis. It gives accurate estimates and means that errors are less squared between the coefficients and their estimates. These methods include determining the value of the regularization constant (λ) and regression coefficients. Ridge regression limits the size of the issue that produces the variables (L2) and tries to reduce the sum of the square of the residual values, which multiplies the squared value β. The same method is Lasso regression, which distinguishes from ridge regression that there is no square of the coefficients but rather the presence of the absolute value of the coefficients (L 1) which causes many zeros, as for Elastic-Nate, it is the third method that combines the two methods, Lasso and Ridge. leading to the selection of the best features. Ridge regression, Lasso regression, and Elastic-Net help to interpret the results of multiple regression with highly correlated factors in a more reliable way. In this thesis, we will look at the performance of the ridge regression model and the Lasso regression model and compare them, the mean squared error (MSE) and the R-squared were utilized to evaluate the models' performance. | en_US |
| dc.identifier.endpage | 76 | |
| dc.identifier.uri | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=CG8WvdvvxJP04Unr7YecfyBGRDvRZCull6FrBrpFHfjjo96yqmVTbB_vbeA0ToIb | |
| dc.identifier.uri | https://hdl.handle.net/20.500.12712/48343 | |
| dc.identifier.yoktezid | 720420 | |
| dc.relation.publicationcategory | Tez | en_US |
| dc.subject | İstatistik | |
| dc.subject | Doğrusal Regresyon | |
| dc.subject | Düzeltme | |
| dc.subject | Elastik Net | |
| dc.subject | Statistics | en_US |
| dc.subject | Makine Öğrenmesi | |
| dc.subject | Linear Regression | en_US |
| dc.subject | Correction | en_US |
| dc.subject | Ridge Regresyon | |
| dc.subject | Elastic Net | en_US |
| dc.subject | Machine Learning | en_US |
| dc.subject | Uyum | |
| dc.subject | Ridge Regression | en_US |
| dc.subject | Adaptation | en_US |
| dc.subject | Varyans | |
| dc.subject | Variance | en_US |
| dc.title | Makine Öğreniminde Aşırı Uyum Problemini Çözmek İçin Kullanılan Regresyon Yöntemlerinin Karşılaştırılması | |
| dc.title | Comparison of Regression Methods to Handle Overfitting in Machine Learning | en_US |
| dc.type | Master Thesis | en_US |
| dspace.entity.type | Publication |
