Publication: Metin Sınıflandırmada Öznitelik Seçimi Üzerine Bir Çalışma
| dc.contributor.advisor | Kılıç, Erdal | |
| dc.contributor.author | Şahin, Durmuş Özkan | |
| dc.date.accessioned | 2025-12-13T10:12:28Z | |
| dc.date.issued | 2016 | |
| dc.department | Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı | |
| dc.description.abstract | Son yıllarda internetin gelişimi ile üretilen ve kaydedilen verinin boyutu hızla artmıştır. Bu verilerden anlamlı bilginin elde edilmesi temel problem olduğundan veri madenciliği teknikleri önem kazanmaktadır. Metin sınıflandırma veri madenciliğinin yaygın çalışılan alanlarından biridir. Metin sınıflandırma ile ilgili önemli problemlerden biri veri boyutu arttıkça çalışma zamanının artması ve sınıflandırma başarımının düşmesidir. Bu problemin çözülmesinde kullanılan temel yöntemlerden biri öznitelik seçimidir. Bu çalışmada metin sınıflandırma için doğru özniteliklerin seçimi amaçlanmaktadır. Öznitelik seçiminde sıkça kullanılan Ki Kare (CHI), Bilgi Kazancı (IG) metrikleri değişik veri setleri üzerinde uygulanarak başarımları ölçülmüştür. Bunun yanında var olan yöntemlere alternatif iki farklı öznitelik seçme yöntemi önerilmektedir. Önerilen yöntemlerden biri metin sınıflandırmada terim ağırlıklandırma için kullanılan Relevance Frequency (RF) yöntemine yeni parametreler eklenmesi ile öznitelik seçimi yapılmasıdır. İkinci yöntem ise Acc2 metriğinin parametrelerinin değiştirilerek kullanılmasıdır. Çalışma sonucunda önerilen metriklerin mevcut metrikler kadar başarılı olduğu gözlenmiştir. | |
| dc.description.abstract | Size of data had been being increased with develop of internet in recent years. Data mining techniques had been being important because of it is the basic problem that obtain significant information. Text classification is one of the commonly studying subfields of data mining. One of the important problems related with text mining is increasing run time and decreasing accuracy of classification by increasing dimension of data. Feature selection is one of the basic methods to solve this problem. In this study it is aimed to selection of correct features for text classification. Chi Square (CHI) and Information Gain (IG) metrics which is widely used are applied on different data sets and their performance are measured. Besides of that two different feature selection methods are proposed as alternative to current methods. One of the proposed methods is selecting features by adding new parameter to Relevance Frequency (RF) method that is used to term weighting. Second method is using Acc2 metric by changing parameters. As result of this study it is observed that performance of proposed methods are as successful as current methods. | en_US |
| dc.identifier.endpage | 71 | |
| dc.identifier.uri | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=cbOXH84ZayrLjc0tI-QXKvoPwY_XtrS5P8ioxzSfb71HFlFrOoIzXF1jDzI7GH57 | |
| dc.identifier.uri | https://hdl.handle.net/20.500.12712/52688 | |
| dc.identifier.yoktezid | 437970 | |
| dc.language.iso | tr | |
| dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | |
| dc.subject | Computer Engineering and Computer Science and Control | en_US |
| dc.title | Metin Sınıflandırmada Öznitelik Seçimi Üzerine Bir Çalışma | |
| dc.title | On the Feature Selection for Text Classification | en_US |
| dc.type | Master Thesis | en_US |
| dspace.entity.type | Publication |
