Türkçe için düşünce kutupluk derlemi oluşturulması ve düşünce çözümlemesi için bir yöntem geliştirilmesi
Yükleniyor...
Dosyalar
Tarih
2015
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Trakya Üniversitesi Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
İnternet kullanımı, erişim olanaklarının çeşitlenmesi ve ucuzlaması ile günümüzde oldukça yaygınlaşmıştır. İnternet kullanımının yaygınlaşması beraberinde, kullanıcı tarafından üretilen içeriklerin de çok büyük boyutlara ulaşmasına neden olmuştur. Kullanıcıların oluşturduğu büyük boyutlardaki verilerden değerli bilgilerin çıkarımını yapabilmek oldukça önemli bir hal almıştır. Bu verilerin, oldukça düzensiz olması nedeniyle bilgi çıkarımı işleminden önce içeriklerine ya da çeşidine göre sınıflandırılması gerekmektedir. Türkçe film yorumları içeren bir web sitesinden özdevimli yöntemler ile bir kutupluk derlemi oluşturularak, İngilizce düşünce analizi için önerilen yapay öğrenme ve doğal dil işleme yöntemleri Türkçe içeriklere uygulanmış, Türkçe dili özelinde sonuçlar tartışılmıştır. Türkçe belgelerde düşünceyi en belirgin şekilde belli eden sözcük öbekleri belirlenmiş, bunlara yapay öğrenme ve doğal dil işleme yöntemleri uygulanarak Türkçe belgeleri, taşıdığı düşünce kutupluğuna göre özdevimli sınıflandıran bir yöntem önerilmiştir. Bu çalışmada, internet kullanıcıları tarafından üretilen metinsel verilerin taşıdığı yargının “olumlu” ya da “olumsuz” olması bakımından özdevimli sınıflandırılma üzerinde durulmuştur. Bilgi edinimi ile öznitelikler belirlenmiş ve film yorumunun düşünceye göre sınıflandırılmasında Naïve Bayes Çokterimli sınıflandırıcısı kullanılmıştır. Sinema filmi yorumları alanındaki derlemin unigram+bigram sözcük kümelerinden oluşturulan bir örneği %90 F-Ölçütü ile en yüksek başarımı sağlamıştır.
Abstract
Internet access facilities have become widespread due to the variety of internet utilization methods and low internet subscription costs. This widespread usage brings huge amount of user generated contents together. Extraction of valuable information from vast amount of contents that are produced by internet users had been an important task. Prior to the information extraction phase, this kind of data have to be classified by its content and type, as it is highly unstructured. In this thesis, a Turkish polarity corpus has been created automatically from a Turkish movie review website. Machine learning and natural language processing methods have been applied to those movie reviews in Turkish by also considering and exploiting previous studies for English and then the results are discussed. The most effective word phrases which obviously designate sentiment of a document in Turkish have been extracted and a new sentiment analysis method is proposed for Turkish by applying natural language processing and machine learning methods to these phrases. Furthermore, a Binary classification of textual data that is generated by internet users is studied. Information gain has been used to extract features of the movie reviews and then the well-known Naïve Bayes Multinomial have been utilized to classify sentiment of these reviews. Ultimately, F-Score of 90% has been achieved as the best score for unigram+bigram subsample of the corpus.
Abstract
Internet access facilities have become widespread due to the variety of internet utilization methods and low internet subscription costs. This widespread usage brings huge amount of user generated contents together. Extraction of valuable information from vast amount of contents that are produced by internet users had been an important task. Prior to the information extraction phase, this kind of data have to be classified by its content and type, as it is highly unstructured. In this thesis, a Turkish polarity corpus has been created automatically from a Turkish movie review website. Machine learning and natural language processing methods have been applied to those movie reviews in Turkish by also considering and exploiting previous studies for English and then the results are discussed. The most effective word phrases which obviously designate sentiment of a document in Turkish have been extracted and a new sentiment analysis method is proposed for Turkish by applying natural language processing and machine learning methods to these phrases. Furthermore, a Binary classification of textual data that is generated by internet users is studied. Information gain has been used to extract features of the movie reviews and then the well-known Naïve Bayes Multinomial have been utilized to classify sentiment of these reviews. Ultimately, F-Score of 90% has been achieved as the best score for unigram+bigram subsample of the corpus.
Açıklama
Yüksek Lisans Tezi
Anahtar Kelimeler
Türkçe, Veri Madenciliği, Fikir Madenciliği, Yapay Öğrenme, Metin Sınıflandırma, Düşünce Çözümleme, Doğal Dil İşleme, Kutupluk Derlemi, Text Classification, Naïve Bayes, Sentiment Analysis, Opinion Mining, Machine Learning, Natural Language Processing, Polarity Corpus, Data Mining