Doğal dil işleme ve metin madenciliği yöntemleriyle teletıp randevu robotunun tasarlanması
Künye
Terzi, M. (2021). Doğal dil işleme ve metin madenciliği yöntemleriyle teletıp randevu robotunun tasarlanması. (Yüksek lisans tezi). Ondokuz Mayıs Üniversitesi, Samsun.Özet
Teknolojinin gelişmesiyle birlikte çevrimiçi ortamlarda çok sayıda veri oluşmaya başlamıştır. Sayısal halde bulunan veriler yapısal verileri; metin, resim veya ses halinde bulunan veriler ise yapısal olmayan verileri oluşturmaktadır. Yapısal verilerin analizinde veri madenciliği yöntemi kullanılırken, yapısal olmayan verilerin analizinde veri madenciliğinin alt dalı olarak kabul edilen metin madenciliği yöntemi kullanılmaktadır. Özellikle sağlık alanında yapılan çalışmalarda metin madenciliği metotlarının kullanımı son yıllarda artış göstermektedir. Bu çalışmada Ocak-Aralık 2019 tarihleri arasında özel bir hastanenin acil servisine gelen 20.516 hastaya ait sağlık verisi kullanılmış olup, veri setinde hastaların demografik özellikleri, özet epikriz ve yönlendirildikleri poliklinik bilgileri bulunmaktadır. Veriler 0-15 yaş arası ve 15 yaş üzeri olarak iki sınıfta incelenmiş ancak 0-15 yaş arasındaki hastalar yalnızca çocuk hastalıkları polikliniğine yönlendirildiğinden dolayı bu gruba ait veriler analiz dışı tutulmuştur. Zemberek Doğal Dil Kütüphanesi ile kelimeler ek-köklerine ayrılarak kök kelimelerin frekanslarına bakılmıştır. Apriori algoritması ve FP-Growth algoritmaları ile kök kelimeler arasındaki birliktelik ilişkisi incelenmiş ve Apriori algoritmasında 32, FP-Growth algoritmasında 37 tane birliktelik kuralı bulunmuştur. Bu çalışma kapsamında sınıflandırma algoritmalarından Destek Vektör Makineleri (DVM), Karar Ağacı, Rasgele Orman ve K-En Yakın Komşu algoritmaları kullanılmış olup analiz aşamasında verilerin %70'i eğitim-%30'u test verisi olarak ikiye ayrılmıştır. Destek Vektör Makineleri algoritmasında %80,4, budama yapılmış karar ağacı algoritmasında %77,0 ve budama yapılmamış karar ağacı algoritmasında %74,3, rasgele orman algoritmasında %71,8 ve K-en yakın komşu algoritmasında %73,4 doğruluk oranı bulunmuştur. Sınıflandırma algoritmalarına ait atama matrisleri incelenerek doğru sınıflandırma yapılan şikayetlerdeki polikliniklere atanan kök kelimeler tespit edilmiştir. Kök kelime–poliklinik sınıflandırmaları için chatbot oluşturularak hastaların cinsiyet, yaş ve hastalıklarıyla ilgili şikayetlerini söylediklerinde hangi polikliniğe gideceklerini öğrenebilmeleri sağlanmıştır. Böylece acil servis yoğunluğunun azaltılmasına ve kaynakların doğru bir şekilde yönlendirilmesine olanak sağlayan bir araç oluşturulmuştur. With the development of technology, a large amount of data has begun to occur in online environments. While the data in digital form creates the structural data, the data in the form of text, picture, or sound creates the unstructured data. While the data mining method is used in the analysis of structured data, the text mining method, which is considered as a sub-branch of data mining, is used in the analysis of unstructured data. The use of text mining methods has increased in recent years, especially in studies in the field of health. In this study, health data of 20,516 patients who came to the emergency department of a private hospital between January and December 2019 were used, and the data set includes demographic characteristics of the patients, summary epicrisis, and outpatient clinic information. The data were analyzed in two classes as 0-15 years old and over 15 years old, but the data belonging to the 0-15 years old group were excluded from the analysis because the patients of this group were only referred to the pediatric outpatient clinic. With the Zemberek Natural Language Library, words were separated into affix-roots, and the frequencies of root words were examined. The association between root words was examined with Apriori and FP-Growth algorithms, and 32 association rules were found in the Apriori algorithm and 37 association rules in the FP-Growth algorithm. Within the scope of this study, Support Vector Machines (SVM), Decision Tree, Random Forest, and K-Nearest Neighbor algorithms from classification algorithms were used, and during the analysis phase, the data is divided into two as 70% training data and 30% test data. The accuracy rate was 80.4% in the Support Vector Machines algorithm, 77.0% in the pruned decision tree algorithm, 74.3% in the unpruned decision tree algorithm, 71.8% in the random forest algorithm, and 73.4% in the K-nearest neighbor algorithm. By examining the assignment matrices of the classification algorithms, the root words assigned to the outpatient clinics in the complaints with the correct classification were determined. By creating a chatbot for root word-polyclinic classifications, patients could learn which polyclinic they would go to when they said their age, gender, and complaints about their illness. Thus, a tool was created to reduce the intensity of the emergency services and direct the resources correctly.