Twitter platformu üzerinden makine öğrenmesi algoritmaları ile cinsiyet ve ilgi alanı analizi

dc.contributor.authorGünçe, Enes
dc.contributor.authorCarus, Aydın
dc.date.accessioned2021-09-23T13:05:18Z
dc.date.available2021-09-23T13:05:18Z
dc.date.issued2021
dc.date.submitted2021
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.descriptionYüksek lisans tezi.en_US
dc.description.abstractTwitter, 2006 yılından itibaren hayatımızda bulunan, 330 milyondan fazla aktif kullanıcısı olan, kısa cümleler ile yaratıcı anlatımlarda bulunulmasını hedefleyen mikro blog sitesidir. İlk kurulduğunda daha çok eğlence ve arkadaşlar arası iletişim amaçlı kullanılan Twitter’ın bu özelliği zamanla evrilmiştir. Günümüzde insanlar, Twitter’ı daha çok; haber takibi, reklam, kurum ve kuruluşların marka bilinirliğini arttırma, kişisel kullanım ve özel hayatın paylaşımının ötesinde, profesyonel hayatın akışı için de kullanmaktadır. Twitter’ın evrim geçiren bu modelinin fırsat olarak görülmesi, artık Twitter’ı eğlenceden ziyade daha fazla insana ulaşma aracı ve sürekli analizleri yapılan bir platform haline getirmiştir. Twitter, kullanıcıları hakkında birçok bilgi sağlamasına rağmen; kişinin yaşı, eğitim durumu, cinsiyeti ve kullanıcıların ilgi alanları gibi bilgileri sağlamamaktadır. Bu sebeple, bu çalışmada, bu bilgilerden cinsiyet ve tweet ilgi alanı çıkarılması hedeflenmiştir. Twitter üzerinden çıkarılan bu bilgiler, günümüzde kişiye özel ürün tanıtım ve tavsiyesi, yasal soruşturma gibi birçok amaca hizmet edecek şekilde kullanılabilmektedir. Bu çalışmada; Tweetlerden cinsiyet ve tweetin ilgi alanı hakkında bilgi elde edilmesine yönelik, Türkçe tweetler toplanmış ve bu tweetlerin el ile etiketleme işlemi yapılarak, denetimli makine öğrenmesi algoritmaları için farklı özniteliklere sahip eğitim setleri oluşturulmuştur. Bunlardan, cinsiyet eğitim seti; Erkek, Kadın ve diğer v (kurum/kuruluş) olarak 3 sınıf içerecek şekilde tasarlanmıştır. İlgi alanı eğitim seti ise Bilim ve Teknoloji, Siyaset, Spor, Eğitim, Ekonomi ve Diğer olmak üzere toplamda 6 sınıftan oluşmaktadır. Bu eğitim setleri kullanılarak, makine öğrenmesi algoritmaları ile modeller çıkarılmış ve sınıflandırma başarımları bulunmuştur. Cinsiyet eğitim seti için en iyi sınıflandırma doğruluk başarımının; Naive Bayes algoritması için %91,4, K-En Yakın Komşu Algoritması (KNN- K-Nearest Neighbors) algoritması için %95,7, C4.5 karar ağacı algoritması için %99,4, Destek Vektör Makineleri (SVM- Support Vector Machine) algoritması için %81,9 ve Ardışık Minimal Optimizasyon (SMO- Sequential Minimal Optimization) algoritmaları %99,9 olduğu tespit edilmiştir. Benzer şekilde ilgi alanı eğitim seti için en iyi sınıflandırma başarımının: Naive Bayes algoritması için %84,7, KNN algoritması için %81,9, C4.5 karar ağacı algoritması için %92,1, SVM algoritması için %90,0 ve SMO algoritması için %93,18 doğrulukta olduğu tespit edilmiştir. Yıl : 2021 Sayfa Sayısıen_US
dc.description.abstractTwitter is a micro blog social network platform that has been in our lives since 2006, has more than 330 million active users and aims to allow its users to communicate through creative expressions with short sentences. This feature of Twitter, which was used mostly for entertainment and communication between friends when it was first established, has evolved over time. Beyond news follow-up, advertising, increasing brand awareness of institutions and organizations, today Twitter is also used for professional life. Consequently, Twitter has become an essential platform for a variety of use cases other than entertainment whereas a deep data investigation and analysis can be helpful to understand the public. Although Twitter provides a lot of information about its users; It does not provide information such as the age, education, gender and interests of the users. Therefore, in this study, it is aimed to extract gender and area of interest from these informations. This information obtained through Twitter can be used today to serve many purposes such as personalized recommender systems, also for legal investigation. In this study; Turkish tweets were collected to obtain information about gender and the area of interest of the tweet from the tweets, and by manually tagging these tweets, training sets with different attributes were created for supervised machine learning algorithms. The first datasete contains the gender training data set is designed to include 3 classes as Male, Female and other (institution / organization). The area of interest training set consists of 6 classes in total: Science and Technology, Politics, vii Sports, Education, Economy and Other. By using these training sets, models with machine learning algorithms have been created and classification performance has been measured. The best classification accuracy achievement for the gender training set; 91.4% for the Naive Bayes algorithm, 95.7% for the K-Nearest Neighbor Algorithm algorithm, 99.4% for the C4.5 decision tree algorithm, Support Vector Machines Machine algorithm is 81.9% and Sequential Minimal Optimization algorithms were found to be 99.9%. Similarly, the best classification performance for the interest data set: 84.7% for the Naive Bayes algorithm, 81.9% for the KNN algorithm, 92.1% for the C4.5 decision tree algorithm, 90.0% for the SVM algorithm and SMO It was determined to be 93.18% accurate for the algorithm.en_US
dc.identifier.urihttps://hdl.handle.net/20.500.14551/5297
dc.identifier.yoktezid661228en_US
dc.language.isotren_US
dc.publisherTrakya Üniversitesi Fen Bilimleri Enstitüsüen_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjecttwitteren_US
dc.subjectmakine öğrenmesien_US
dc.subjectcinsiyet analizien_US
dc.subjectilgi alanı analizien_US
dc.subjectmachine learningen_US
dc.subjectgender analysisen_US
dc.subjectinterest area analysisen_US
dc.titleTwitter platformu üzerinden makine öğrenmesi algoritmaları ile cinsiyet ve ilgi alanı analizien_US
dc.title.alternativeGender and ınterest analysis with machine learning algorithms on twitter platformen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
0179192.pdf
Boyut:
3.75 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Tam Metin/Full Text
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.44 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: