Publication:
Makine Öğrenmesi Yöntemleri Kullanılarak Karaciğer Sirozu Hastalığını Etkileyen Faktörlerin Sınıflandırılması

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Research Projects

Organizational Units

Journal Issue

Abstract

Günümüzde birçok alanda yapılan çalışmalarda sınıflandırma, tahmin ve kümeleme yapmasından dolayı makine öğrenmesi algoritmalarına sıkça başvurulmaktadır. Makine öğrenmesi, kullanılmakta olan verilerden çıkarımlarda bulunan veri madenciliği tekniği olarak adlandırılmaktadır. Makine öğrenmesi algoritmaları problem tiplerine göre farklılıklar göstermesinden dolayı farklı problemlerde farklı sınıflandırma başarılarına sahip olma özelliği göstermektedir. Makine öğrenmesi algoritmaları birçok alanda olduğu gibi sağlık alanında yüksek performans göstermesinden dolayı sıkça başvurulan bir tekniktir. Bu çalışmada Karaciğer Sirozu hastalığını etkileyen faktörlerin sınıflandırılması, makine öğrenmesi algoritmaları ile analiz edilmektedir. Çalışmada, literatürde sıkça kullanılan yedi temel sınıflandırma algoritması kullanılmıştır. Bu algoritmalar, Yapay Sinir Ağları-Çok Katmanlı Algılayıcı, Karar Ağaçları, Rastgele Orman, Naive Bayes, Destek Vektör Makineleri, K-En Yakın Komşu ve Lojistik Regresyon sınıflandırma algoritmalarıdır. Öncelikle algoritmaların sınıflandırma başarıları karşılaştırılmıştır. Bu karşılaştırmalar, doğruluk, duyarlılık, kesinlik, özgüllük ve F-ölçütü oranları üzerinden yapılmıştır. Bu ölçütlere ek olarak diğer değerlendirme ölçütü olan ROC eğrisi sonuçları da göz önünde bulundurulmuştur. Algoritma sonuçları bölünmüş ve çapraz doğrulama tekniklerinin verdiği sonuçlara göre karşılaştırılmıştır. Çalışma Ondokuz Mayıs Üniversitesi hastanesinde tedavi gören 2000 gerçek hastanın 25 özelliğinden elde edilen veri kümesi üzerinden yürütülmüştür. Çalışma sonuçları karşılaştırıldığında Rastgele Orman algoritmasının diğer sınıflandırma algoritmalarına göre %80'lik eğitim setine karşılık gelen %20'lik test kümesinde ve bölünmüş doğrulama tekniğini kullanarak %93,00 doğruluk oranı, %92,50 özgüllük oranı, %93,50 duyarlılık oranı, %92,57 kesinlik oranı ve %93,03 F-ölçütü oranı ile en yüksek sınıflandırma yüzdesine sahip olduğu sonucuna varılmıştır. Burada sınıflandırma işlemini yaparken kriter olarak Gini indeksi, ağaç sayısı olarak 11 ve maksimum derinlik olarak ise 9 seçilmiştir. ROC eğrisi değeri ise 1'e yakın bir değer olan 0,979 bulunmuştur. Elde edilen bu sonuç, Rastgele Orman algoritması ile sınıflandırma yapılmasının uygun olduğunu göstermektedir.
Today, machine learning algorithms are frequently used because of classification, prediction and clustering in studies conducted in many fields. Machine learning is called data mining technique, which deducts from the data in use. Since machine learning algorithms differ according to problem types, they exhibit different classification successes in different problems. Machine learning algorithms, as in many fields, are a frequently used technique because of their high performance in the field of health. In this study, the classification of factors affecting Liver Cirrhosis disease is analyzed by machine learning algorithms. In the study, seven basic classification algorithms used in the literature were used. These algorithms are Artificial Neural Networks-Multilayer Sensor, Decision Trees, Random Forest, Naive Bayes, Support Vector Machines, K-Nearest Neighbor and Logistic Regression classification algorithms. First of all, classification success of algorithms are compared. These comparisons are based on accuracy, sensitivity, precision, specificity, and F-criteria ratios. In addition to these criteria, ROC curve results, which are other evaluation criteria, are also taken into consideration. Algorithm results are divided and compared based on cross validation techniques. The study was carried out on the dataset obtained from 25 characteristics of 2000 real patients treated at Ondokuz Mayıs University hospital. Comparing the results of the study, 93.00% accuracy rate, 92.50% specificity rate, 93.50% sensitivity rate, in the 20% test set corresponding to the 80% training set compared to other classification algorithms of the Random Forest algorithm and using the split verification technique, It was concluded that it has the highest classification percentage with 92.57% accuracy rate and 93.03% F-criteria ratio. Here, while doing the classification, the Gini index was selected as the criterion, 11 as the number of trees and 9 as the maximum depth. The ROC curve value was found to be 0.979, a value close to 1. This result shows that it is appropriate to classify with Random Forest algorithm.

Description

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

96

Endorsement

Review

Supplemented By

Referenced By