Derin öğrenme ile Türkçe haber metinlerine başlık üretme

Yükleniyor...
Küçük Resim

Tarih

2021

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Trakya Üniversitesi Fen Bilimleri Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

İnternet kavramı geçmişten günümüze büyük bir değişim göstermiştir. Özellikle günümüzde birçok insanın çok kolay ulaşabildiği ve insanların kolaylıkla bağımsız içerik oluşturabildiği bir ortam haline gelmiştir. Ancak sağladığı bu kolaylıkların yanı sıra üretilen ham veriden bilgi elde etmek daha zor hale gelmiş ve üretilen içeriklere verilen başlıklar daha yanıltıcı olmaya başlamıştır. İnternete servis edilen bilginin çok fazla miktarda olması ve yanıltıcı bilgi içermesi, kısıtlı zamanında aradığı bilgiye kısa zamanda ulaşmak isteyen insan için olumsuz bir durum oluşturmaktadır. İnsanların istediği bilgiye hızlı bir şekilde ulaşmasına yardımcı olacak en belirgin özelliklerden biri içeriklere ait başlıklardır. Çünkü insan, bu başlıklardan yola çıkarak içeriğe ait bir ön bilgiye sahip olabilecektir. Ancak yanıltıcı başlıklar söz konusu olduğunda bu bir dezavantaja dönüşüp, istenilen bilgiye ulaşmayı engelleyebilmektedir. Bu tür yanıltıcı başlıkların üretildiği içeriklerin en başında haber metinleri yer almaktadır. Bu çalışmada derin öğrenme yöntemi ile Türkçe haber metinlerine otomatik olarak başlık üreten bir uygulama geliştirilmiştir. Veri seti olarak SuDer haber derleminden özetleme görevi için uygun olabilecek haber metinleri ayıklanarak, bu ayıklanan haberler bir dizi ön işlemlerden geçirilerek kullanılmıştır. Eğitim öncesi sözel verilerin sayısallaştırılmasında ve kelime gömmelerinin oluşturulmasında, derin öğrenme kütüphanelerinden Keras kütüphanesi kullanılmıştır. Modelin eğitimi için ise günümüzde doğal dil çalışmalarında sıklıkla tercih edilen transformatör mimarisi ile soyut özetleme yöntemi kullanılarak, haber başlıklarının üretiminde daha insansı sonuçlar elde etmek istenmiştir. Modelin 20 ve 25 dönem eğitimden sonra sırasıyla yaklaşık %75 ve %85 oranında doğruluğa ulaşarak, haber metinlerindeki bağlamı ifade etmekte yetenekli başlıklar üretebildiği gözlemlenmiştir.
The concept of internet has changed greatly from past to present. Especially today, it has become an environment where many people can easily access and people can easily create independent content. However, in addition to these facilities, it has become more difficult to obtain information from the raw data produced and the titles given to the content produced have become more misleading. The excessive amount of information presented on the internet and the fact that it contains misleading information creates a negative situation for people who want to reach the information they seek in a limited time they have in a short time. One of the most obvious things that will help people quickly find the information they want is the content titles. Because, based on these titles, people will be able to have a preliminary knowledge of the content. However, when it comes to misleading titles, this can turn into a disadvantage and prevent access to the desired information. News texts are at the top of the content in which such misleading headlines are produced. In this study, an application that automatically generates headlines for Turkish news texts with deep learning method was developed. As a data set, news texts that might be suitable for the summarizing task were extracted from the SuDer news collection, and these extracted news were used after a series of pre-processes. Keras library, one of the deep learning libraries, was used to digitize verbal data before education and to create word embedding. For the training of the model, it was aimed to obtain more humanoid results in the production of news headlines by using the transformer architecture, which is frequently preferred in natural language studies today and the abstract summarization method. The model achieved approximately 75% and vii 85% accuracy after 20 and 25 periods of training, respectively. The model succeeded in generating headlines that could express the context in news texts.

Açıklama

Anahtar Kelimeler

otomatik başlık üretmer, soyut metin özetleme, derin öğrenme, transformatörle, automatic headline generation, deep learning, abstract text summarization, transformers

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye