Publication:
Metin Sınıflandırmada Öznitelik Seçimi Üzerine Bir Çalışma

dc.contributor.advisorKılıç, Erdal
dc.contributor.authorŞahin, Durmuş Özkan
dc.date.accessioned2025-12-13T10:12:28Z
dc.date.issued2016
dc.departmentFen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı
dc.description.abstractSon yıllarda internetin gelişimi ile üretilen ve kaydedilen verinin boyutu hızla artmıştır. Bu verilerden anlamlı bilginin elde edilmesi temel problem olduğundan veri madenciliği teknikleri önem kazanmaktadır. Metin sınıflandırma veri madenciliğinin yaygın çalışılan alanlarından biridir. Metin sınıflandırma ile ilgili önemli problemlerden biri veri boyutu arttıkça çalışma zamanının artması ve sınıflandırma başarımının düşmesidir. Bu problemin çözülmesinde kullanılan temel yöntemlerden biri öznitelik seçimidir. Bu çalışmada metin sınıflandırma için doğru özniteliklerin seçimi amaçlanmaktadır. Öznitelik seçiminde sıkça kullanılan Ki Kare (CHI), Bilgi Kazancı (IG) metrikleri değişik veri setleri üzerinde uygulanarak başarımları ölçülmüştür. Bunun yanında var olan yöntemlere alternatif iki farklı öznitelik seçme yöntemi önerilmektedir. Önerilen yöntemlerden biri metin sınıflandırmada terim ağırlıklandırma için kullanılan Relevance Frequency (RF) yöntemine yeni parametreler eklenmesi ile öznitelik seçimi yapılmasıdır. İkinci yöntem ise Acc2 metriğinin parametrelerinin değiştirilerek kullanılmasıdır. Çalışma sonucunda önerilen metriklerin mevcut metrikler kadar başarılı olduğu gözlenmiştir.
dc.description.abstractSize of data had been being increased with develop of internet in recent years. Data mining techniques had been being important because of it is the basic problem that obtain significant information. Text classification is one of the commonly studying subfields of data mining. One of the important problems related with text mining is increasing run time and decreasing accuracy of classification by increasing dimension of data. Feature selection is one of the basic methods to solve this problem. In this study it is aimed to selection of correct features for text classification. Chi Square (CHI) and Information Gain (IG) metrics which is widely used are applied on different data sets and their performance are measured. Besides of that two different feature selection methods are proposed as alternative to current methods. One of the proposed methods is selecting features by adding new parameter to Relevance Frequency (RF) method that is used to term weighting. Second method is using Acc2 metric by changing parameters. As result of this study it is observed that performance of proposed methods are as successful as current methods.en_US
dc.identifier.endpage71
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=cbOXH84ZayrLjc0tI-QXKvoPwY_XtrS5P8ioxzSfb71HFlFrOoIzXF1jDzI7GH57
dc.identifier.urihttps://hdl.handle.net/20.500.12712/52688
dc.identifier.yoktezid437970
dc.language.isotr
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleMetin Sınıflandırmada Öznitelik Seçimi Üzerine Bir Çalışma
dc.titleOn the Feature Selection for Text Classificationen_US
dc.typeMaster Thesisen_US
dspace.entity.typePublication

Files