Publication: Metin Madenciliği Teknikleri ile Sosyal Medya Gönderilerinin Analiz Edilmesi: Ankilozan Spondilit Hastalığı Örneği
Abstract
Teknoloji kullanımın her geçen gün artması ile birlikte sosyal medya ve internet kullanımı hızla yaygınlaşmaktadır. Özellikle sosyal medya kullananların sayısının artmasıyla insanlar duygu ve düşüncelerini, gündemle ilgili görüş ve fikirlerini sosyal medya araçlarını kullanarak paylaşmaktadır. En çok kullanılan sosyal medya araçlarından biri olan Facebook gibi sosyal ağ uygulamalarında milyonlarca içerik paylaşılmaktadır. Paylaşılan bu içerikler yapısal olmayan veri türleridir. Bu yapısal olmayan verilerden anlamlı bilgilerin elde edilebilmesi ve çeşitli analizlerin yapılabilmesi için yapısal hale dönüştürülmesi gerekmektedir. Yapısal olmayan metin içerikli verilerin yapısal hale dönüştürülmesinde ve analiz edilmesinde metin madenciliği yöntemleri kullanılmaktadır. Bu çalışmada Facebook'ta yer alan 'Ankilozan Spondilit Hasta Derneği' grubunda Ankilozan Spondilit hastaları tarafından paylaşılan metinsel içerikler metin madenciliği yöntemleri kullanılarak analiz edilmiştir. Farklı kategoriler altında veriler toplanmıştır. Ağırlıklandırma yöntemleri olarak terim frekansı, ikili ağırlıklandırma ve TFxIDF (Terim frekansı x Ters metin frekansı) ağırlıklandırma yöntemleri kullanılmıştır. Sınıflandırma işlemleri için K-en yakın komşu, SMO (Sequential minimal optimization), karar ağaçları ve Naive Bayes algoritması kullanılmıştır. Terim ağırlıklandırma yöntemlerine göre sınıflandırma algoritmalarının başarı oranları ölçülmüştür. En başarılı sonuç %53,33 doğruluk oranı ile ikili ağırlıklandırma yönteminde SMO algoritmasının sağladığı gözlenmiştir. Her kategoriyi temsil edecek anlamlı bilgi çıkarımları yapılmış ve bilgi çıkarımları çeşitli görsel grafikler ile sunulmuştur. Kategorilere ait ikili ve üzeri kelime kullanımlarını tespit etmek amacıyla birliktelik analizi yapılmıştır. Birliktelik analizi işlemlerinde Apriori algoritması uygulanmış ve sonuçlar çizelgeler halinde verilmiştir. Kategorileri temsil eden anahtar kelimelerin yıllara göre farklılık gösterdiği tespit edilmiştir. Kategorilere ait anahtar kelimeleri göstermek amacıyla kelime bulutları oluşturulmuştur.
With the increasing use of technology, social media and internet usage is rapidly widespread. Especially with the increase in the number of social media users, people share their feelings and thoughts, opinions and ideas about the agenda by using social media tools. Millions of content are shared in social networking applications such as Facebook, one of the most widely used social media tools. These shared contents are non-structural data types. It is necessary to extract meaningful information from these non-structural data and to be transformed into a structural format in order to make various analyzes. Text mining methods are used for the transformation and analysis of non-structural text-based data. In this study, the textual contents shared by patients with Ankylosing Spondylitis in 'The Ankylosing Spondylitis Patient Association' group on Facebook were analyzed by using text mining methods. Data was collected under different categories. Term frequency, binary weighting and TFxIDF (Term frequency x Inverse document frequency) weighting methods were used as weighting methods. K-nearest neighbors, SMO (Sequential minimal optimization), decision trees and Naive Bayes algorithm were used for classification operations. Performance ratios of classification algorithms were measured according to the term weighting methods. The most successful result was obtained by SMO algorithm in binary weighting method with an accuracy rate of 53.33%. Significant information extractions to represent each category were made and the these were presented with various visual graphs. An association analysis was performed to determine binary and above word usage of the categories. Apriori algorithm was applied in association analysis and the results were given as tables. It has been found that the keywords representing the categories differ according to years. Word clouds have been created to show the keywords belonging to the categories.
With the increasing use of technology, social media and internet usage is rapidly widespread. Especially with the increase in the number of social media users, people share their feelings and thoughts, opinions and ideas about the agenda by using social media tools. Millions of content are shared in social networking applications such as Facebook, one of the most widely used social media tools. These shared contents are non-structural data types. It is necessary to extract meaningful information from these non-structural data and to be transformed into a structural format in order to make various analyzes. Text mining methods are used for the transformation and analysis of non-structural text-based data. In this study, the textual contents shared by patients with Ankylosing Spondylitis in 'The Ankylosing Spondylitis Patient Association' group on Facebook were analyzed by using text mining methods. Data was collected under different categories. Term frequency, binary weighting and TFxIDF (Term frequency x Inverse document frequency) weighting methods were used as weighting methods. K-nearest neighbors, SMO (Sequential minimal optimization), decision trees and Naive Bayes algorithm were used for classification operations. Performance ratios of classification algorithms were measured according to the term weighting methods. The most successful result was obtained by SMO algorithm in binary weighting method with an accuracy rate of 53.33%. Significant information extractions to represent each category were made and the these were presented with various visual graphs. An association analysis was performed to determine binary and above word usage of the categories. Apriori algorithm was applied in association analysis and the results were given as tables. It has been found that the keywords representing the categories differ according to years. Word clouds have been created to show the keywords belonging to the categories.
Description
Keywords
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
250
