Twitter platformu üzerinden makine öğrenmesi algoritmaları ile cinsiyet ve ilgi alanı analizi
Yükleniyor...
Dosyalar
Tarih
2021
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Trakya Üniversitesi Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Twitter, 2006 yılından itibaren hayatımızda bulunan, 330 milyondan fazla aktif kullanıcısı olan, kısa cümleler ile yaratıcı anlatımlarda bulunulmasını hedefleyen mikro blog sitesidir. İlk kurulduğunda daha çok eğlence ve arkadaşlar arası iletişim amaçlı kullanılan Twitter’ın bu özelliği zamanla evrilmiştir. Günümüzde insanlar, Twitter’ı daha çok; haber takibi, reklam, kurum ve kuruluşların marka bilinirliğini arttırma, kişisel kullanım ve özel hayatın paylaşımının ötesinde, profesyonel hayatın akışı için de kullanmaktadır. Twitter’ın evrim geçiren bu modelinin fırsat olarak görülmesi, artık Twitter’ı eğlenceden ziyade daha fazla insana ulaşma aracı ve sürekli analizleri yapılan bir platform haline getirmiştir. Twitter, kullanıcıları hakkında birçok bilgi sağlamasına rağmen; kişinin yaşı, eğitim durumu, cinsiyeti ve kullanıcıların ilgi alanları gibi bilgileri sağlamamaktadır. Bu sebeple, bu çalışmada, bu bilgilerden cinsiyet ve tweet ilgi alanı çıkarılması hedeflenmiştir. Twitter üzerinden çıkarılan bu bilgiler, günümüzde kişiye özel ürün tanıtım ve tavsiyesi, yasal soruşturma gibi birçok amaca hizmet edecek şekilde kullanılabilmektedir. Bu çalışmada; Tweetlerden cinsiyet ve tweetin ilgi alanı hakkında bilgi elde edilmesine yönelik, Türkçe tweetler toplanmış ve bu tweetlerin el ile etiketleme işlemi yapılarak, denetimli makine öğrenmesi algoritmaları için farklı özniteliklere sahip eğitim setleri oluşturulmuştur. Bunlardan, cinsiyet eğitim seti; Erkek, Kadın ve diğer v (kurum/kuruluş) olarak 3 sınıf içerecek şekilde tasarlanmıştır. İlgi alanı eğitim seti ise Bilim ve Teknoloji, Siyaset, Spor, Eğitim, Ekonomi ve Diğer olmak üzere toplamda 6 sınıftan oluşmaktadır. Bu eğitim setleri kullanılarak, makine öğrenmesi algoritmaları ile modeller çıkarılmış ve sınıflandırma başarımları bulunmuştur. Cinsiyet eğitim seti için en iyi sınıflandırma doğruluk başarımının; Naive Bayes algoritması için %91,4, K-En Yakın Komşu Algoritması (KNN- K-Nearest Neighbors) algoritması için %95,7, C4.5 karar ağacı algoritması için %99,4, Destek Vektör Makineleri (SVM- Support Vector Machine) algoritması için %81,9 ve Ardışık Minimal Optimizasyon (SMO- Sequential Minimal Optimization) algoritmaları %99,9 olduğu tespit edilmiştir. Benzer şekilde ilgi alanı eğitim seti için en iyi sınıflandırma başarımının: Naive Bayes algoritması için %84,7, KNN algoritması için %81,9, C4.5 karar ağacı algoritması için %92,1, SVM algoritması için %90,0 ve SMO algoritması için %93,18 doğrulukta olduğu tespit edilmiştir. Yıl : 2021 Sayfa Sayısı
Twitter is a micro blog social network platform that has been in our lives since 2006, has more than 330 million active users and aims to allow its users to communicate through creative expressions with short sentences. This feature of Twitter, which was used mostly for entertainment and communication between friends when it was first established, has evolved over time. Beyond news follow-up, advertising, increasing brand awareness of institutions and organizations, today Twitter is also used for professional life. Consequently, Twitter has become an essential platform for a variety of use cases other than entertainment whereas a deep data investigation and analysis can be helpful to understand the public. Although Twitter provides a lot of information about its users; It does not provide information such as the age, education, gender and interests of the users. Therefore, in this study, it is aimed to extract gender and area of interest from these informations. This information obtained through Twitter can be used today to serve many purposes such as personalized recommender systems, also for legal investigation. In this study; Turkish tweets were collected to obtain information about gender and the area of interest of the tweet from the tweets, and by manually tagging these tweets, training sets with different attributes were created for supervised machine learning algorithms. The first datasete contains the gender training data set is designed to include 3 classes as Male, Female and other (institution / organization). The area of interest training set consists of 6 classes in total: Science and Technology, Politics, vii Sports, Education, Economy and Other. By using these training sets, models with machine learning algorithms have been created and classification performance has been measured. The best classification accuracy achievement for the gender training set; 91.4% for the Naive Bayes algorithm, 95.7% for the K-Nearest Neighbor Algorithm algorithm, 99.4% for the C4.5 decision tree algorithm, Support Vector Machines Machine algorithm is 81.9% and Sequential Minimal Optimization algorithms were found to be 99.9%. Similarly, the best classification performance for the interest data set: 84.7% for the Naive Bayes algorithm, 81.9% for the KNN algorithm, 92.1% for the C4.5 decision tree algorithm, 90.0% for the SVM algorithm and SMO It was determined to be 93.18% accurate for the algorithm.
Twitter is a micro blog social network platform that has been in our lives since 2006, has more than 330 million active users and aims to allow its users to communicate through creative expressions with short sentences. This feature of Twitter, which was used mostly for entertainment and communication between friends when it was first established, has evolved over time. Beyond news follow-up, advertising, increasing brand awareness of institutions and organizations, today Twitter is also used for professional life. Consequently, Twitter has become an essential platform for a variety of use cases other than entertainment whereas a deep data investigation and analysis can be helpful to understand the public. Although Twitter provides a lot of information about its users; It does not provide information such as the age, education, gender and interests of the users. Therefore, in this study, it is aimed to extract gender and area of interest from these informations. This information obtained through Twitter can be used today to serve many purposes such as personalized recommender systems, also for legal investigation. In this study; Turkish tweets were collected to obtain information about gender and the area of interest of the tweet from the tweets, and by manually tagging these tweets, training sets with different attributes were created for supervised machine learning algorithms. The first datasete contains the gender training data set is designed to include 3 classes as Male, Female and other (institution / organization). The area of interest training set consists of 6 classes in total: Science and Technology, Politics, vii Sports, Education, Economy and Other. By using these training sets, models with machine learning algorithms have been created and classification performance has been measured. The best classification accuracy achievement for the gender training set; 91.4% for the Naive Bayes algorithm, 95.7% for the K-Nearest Neighbor Algorithm algorithm, 99.4% for the C4.5 decision tree algorithm, Support Vector Machines Machine algorithm is 81.9% and Sequential Minimal Optimization algorithms were found to be 99.9%. Similarly, the best classification performance for the interest data set: 84.7% for the Naive Bayes algorithm, 81.9% for the KNN algorithm, 92.1% for the C4.5 decision tree algorithm, 90.0% for the SVM algorithm and SMO It was determined to be 93.18% accurate for the algorithm.
Açıklama
Yüksek lisans tezi.
Anahtar Kelimeler
twitter, makine öğrenmesi, cinsiyet analizi, ilgi alanı analizi, machine learning, gender analysis, interest area analysis