Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/10928
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorKutlu, Mücahi̇d-
dc.contributor.authorDoğan, Di̇lara-
dc.date.accessioned2023-12-26T14:00:13Z-
dc.date.available2023-12-26T14:00:13Z-
dc.date.issued2023-
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=S2eMu1TIwY_v4mYv58xAr9I1W6cQUM6EfAu0p_iavR7G9dVPuQ5oubM1YiyiSmXv-
dc.identifier.urihttps://hdl.handle.net/20.500.11851/10928-
dc.description.abstractDoğal dil işleme alanındaki heyecan verici yeni gelişmeler dillerin karmaşıklıklarının daha iyi anlaşılmasını, metinler üzerinden yapılan anlam çıkarımları ve analizlerle daha başarılı sonuçlar ortaya koyulmasını sağlamıştır. Doğal dil işleme modelleri için geniş veri kümeleri sunan sosyal medya platformlarının kullanımı her geçen gün artarak insanların günlük hayatlarının önemli bir parçasına haline gelmiştir. İnsanlar, sosyal medya platformları üzerinden paylaştıkları metinlerde duygularını, düşüncelerini, deneyimlerini ve kendileriyle ilgili kişisel birçok bilgiyi ifade edebilmektedir. Yapay zekâ modellerinin, bu verileri insanların takip edilmesinde kullanabilmesi, kullanıcılarda önemli gizlilik endişelerini de beraberinde getirmiştir. Bu tez çalışmasında, sosyal medya platformlarını kullanan bireylerin yapay zekâ modelleri tarafından tespit edilememeleri için yapabileceklerini araştırıyoruz. Araştırmamızda birçok konuda kullanıma açık olan taraf tespiti görevini çeşitli konulardaki Türkçe ve İngilizce veri kümeleriyle ele alıyoruz. BERT ve BERTurk tabanlı dönüştürücü modellerini, yanıltmak amacıyla yeniden ifade etme ve kasıtlı yazım hataları yapma tabanlı yöntemler öneriyoruz. Önerilen 13 farklı yöntemin modellerin performanslarını etkileme seviyelerine göre etkinliklerini araştırıyoruz. Deneylerimiz sonucunda, yazım hataları karşısında BERT ve BERTurk tabanlı modellerin performanslarının belirgin bir şekilde düştüğü gösterilmiştir. Yazım hatalarına yönelik yöntemlerden iki dilde de en etkili yöntemlerin görsel olarak benzer karakterleri birbirleri yerine kullanma, boşluk ekleyerek kelimeyi bölme ve kelimelerdeki harflerin sıralarını karıştırma olduğu sonucuna ulaşılmıştır. Fakat bunula birlikte, yeniden ifade etme yöntemlerinin bu modellerin performanslarını etkileme konusunda başarılı olmadığı görülmüştür. Yöntemlerin uygulanmasında manuel ve otomatik olmak üzere iki farklı yöntem kullanılmıştır. Yöntemlerin otomatik uygulanması sonucunda elde edilen metinlerin hâlâ eski anlamlarını koruyarak okunabilir olması istenmiştir. İki değerlendirici tarafından bu kontroller sağlanmış olup harf sıralarını karıştırma, hashtag silme ve boşluk ekleme yöntemleri kullanılarak yapılan otomatik değişiklikler sonucunda okunurluğun azalması ve anlam değişmeleri gibi durumlar tespit edilmiştir. Bu sebeple bu yöntemlerin uygulanması konusunda daha dikkatli olunması gerektiği sonucuna ulaşılmıştır. Diğer bir nokta ise hashtag'lere dayalı yöntemlerde hashtag seçimleri oldukça önemli olup modellerin daha iyi performans göstermesine de sebep olabilmektedir. Bununla birlikte hashtag silme ve hashtag kullanılmaması çoğu durumda daha etkili sonuçlar vermiştir. Önerdiğimiz yöntemler ve elde ettiğimiz sonuçlar, bilgi ve gizliliklerini yapay zekâ modellerinden korumak isteyen kullanıcılar için yol gösterici nitelik taşımaktadır.en_US
dc.description.abstractThe recent advances in natural language processing have led to a better understanding of language complexities and more successful outcomes in text analysis and comprehension models. Social media platforms, which offer large datasets for natural language processing models, have become an integral part of people's daily lives. Individuals express their emotions, thoughts, experiences, and various personal information through the text they share on social media platforms. However, the ability of artificial intelligence models to track and analyze this data has raised significant privacy concerns among users. In this thesis, we investigate what individuals using social media platforms can do to avoid being detected by artificial intelligence models. We address the task of stance detection on various topics using Turkish and English datasets. We propose methods for BERT and BERTurk-based transformer models to deceive the models by rephrasing and introducing intentional spelling errors. We investigate the effectiveness of the 13 different methods based on their impact on the models' performances. Our experiments demonstrate that intentional spelling error methods significantly reduce the performance of BERT and BERTurk-based models for stance detection. The most effective methods for spelling errors in both languages involve using visually similar characters, splitting words by adding spaces and shuffling the order of letters in words. However, paraphrasing methods are found to be unsuccessful in affecting the models' performances. Two different approaches, manual and automatic, were used for applying the methods. The automatic application of the methods aimed to retain the readability and original meanings of the resulting texts. Two evaluators ensured these checks, and some methods were found to result in reduced readability and changes in semantics due to automatic modifications. Hence, caution is advised in applying shuffle, delete hashtag and adding space. Another point is that in methods based on hashtags, hashtag selections are very important and can cause models to perform better. However, removing or not using hashtags has been more effective in most cases. The proposed methods and the results obtained serve as a guiding reference for users who want to protect their information and privacy from artificial intelligence models.en_US
dc.language.isotren_US
dc.publisherTOBB ETÜen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolen_US
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleSosyal medyada kullanıcı gizliliğini korumak için taraf tespiti görevinde dönüştürücü dil modellerini yanıltma yöntemlerien_US
dc.title.alternativeMethods of deceiving transformer language models in stance detection to protect user privacy in social mediaen_US
dc.typeMaster Thesisen_US
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.departmentInstitutes, Graduate School of Engineering and Science, Computer Engineering Graduate Programsen_US
dc.identifier.startpage1en_US
dc.identifier.endpage79en_US
dc.institutionauthorDoğan, Di̇lara-
dc.relation.publicationcategoryTezen_US
dc.identifier.yoktezid832233en_US
item.grantfulltextnone-
item.openairetypeMaster Thesis-
item.cerifentitytypePublications-
item.fulltextNo Fulltext-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.languageiso639-1tr-
Appears in Collections:Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses
Show simple item record



CORE Recommender

Page view(s)

182
checked on Jul 1, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.