Endüstri Mühendisliği Bölümünde görevli Dr. Öğretim Üyesi İbrahim Sabuncu ve öğrencisi Zeynep Yürek’ten oluşan ekip, sosyal medya analitiği üzerine “Koronavirüs Türkçe Tweet Veri Seti” çalışması başlattı.
Türkiye’de ilk vakanın görülmesinin ardından, bu konuda sosyal medya platformu Twitter’da paylaşılan Türkçe mesajları toplayan ekip, 23 Nisan’da 4,8 milyon tweetin bulunduğu veri setini duyurdu.
Sabuncu ve öğrencisi, daha sonra dünyanın önde gelen mühendislik organizasyonu olup 420 binden fazla üyesi bulunan Elektrik ve Elektronik Mühendisleri Enstitüsünün (IEEE) veri tabanına yükleme yaptı. IEEE’nin düzenlediği yarışmada 3’üncü olan ekip, bu çalışmayı Türkiye Bilimsel ve Teknolojik Araştırma Kurumunun (TÜBİTAK) veri setleri bölümüne de aktardı.
“Veri seti, tahmin ve önleme çalışmalarında kullanılabilecek”
Dr. Öğretim Üyesi İbrahim Sabuncu, yaptığı açıklamada, yarışmada kullandıkları veri setini, Kovid-19’un Türkiye’deki sosyal etkilerini araştırmak amacıyla hazırladıklarını söyledi.
Koronavirüsle ilgili Türkçe yazılmış Twitter mesajlarını “veri madenciliği” yazılımıyla topladıklarını belirten Sabuncu, şöyle devam etti:
“Bu tweetler, Kovid-19’un Türkiye’ye sosyal etkileri ile ilgili sosyal medya analizi, metin madenciliği, konu modelleme gibi çalışmalar yapmak için önemli bir veri kaynağı oluşturmaktadır. Bu veriler, Türkiye’deki insanların Kovid-19 ile ilgili endişelendikleri konuları, ihtiyaçlarını, beklentilerini, yöneticilerden taleplerini anlamak, virüsün yayıldığı noktaları, yayılma hızını ve gelecekteki vaka sayılarını tahmin edebilmek, Kovid-19 ile ilgili kasıtlı, yalan, yanlış haber ve bilgi paylaşanları tespit edebilmek gibi pek çok farklı konu ile ilgili yapılacak analizlerde kullanılabilecek.”
Veri toplamaya, Türkiye’de ilk vakanın görüldüğü 11 Mart’ta başladıklarına değinen Sabuncu, başka araştırmacıların da yararlanabilmesi için bu bilgileri TÜBİTAK ve IEEE’nin veri portalına yüklediklerini dile getirdi.
Sabuncu, “TÜBİTAK’ın Kovid-19 portalında bizden önce İngilizce veri seti vardı. Biz yükledikten sonra Türkçe tweet veri setimize erişilebiliyor. Burada yüklü veri setimiz 4,8 milyon tweet barındırıyor ama 23 Nisan sonrası da veri toplamaya devam ettiğimiz için bu sayı 6 milyona ulaştı.” dedi.
“Ülkemiz, üniversitemiz adına memnun olduk”
Sabuncu, amaçlarının Türkiye’de Kovid-19 ile ilgili sosyal medya analitiği üzerine çalışmalar yapan bilim insanlarının veri setinden faydalanmasını sağlamak olduğunu aktardı.
Veri setini IEEE portalına yüklerken bir yarışmaya da katıldıklarını anlatan Sabuncu, şunları kaydetti:
“Bizim veri setimiz, en fazla ziyaretçi alan 3’üncü veri seti oldu. Tabii biz bu durumda ülkemiz, üniversitemiz adına memnun olduk. Türk bayraklı logomuzun olduğu veri setimizin listeye girmesi bizi onore etti. Tabii bizim asıl amacımız, koronavirüsle mücadelede faydalı bilgilerin üretilmesi, hem bilimsel hem de halka fayda sağlayacak bir çalışma yapmaktır. Bu çalışmamızı önümüzdeki dönem sonunda bitirip sonucunu paylaşacağız.”
Sosyal medya analitiğinin pek çok konuda kullanıldığı bilgisini veren Sabuncu, kasım ayında ABD’de yapılacak başkanlık seçimleri tahmini için de yeni bir veri toplama çalışması başlattıklarını ve bunu seçimlerden önce açıklamayı hedeflediklerini sözlerine ekledi.