Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.11851/12431
Title: | Türkçe'de Eş Anlamlı Kelimelerin Hesaplamalı Diyakronik Analizi Computational Diachronic Analysis of Turkish Synonym Words |
Authors: | Yazar, Umur Togay | Advisors: | Özbayoğlu, Ahmet Murat | Keywords: | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Dilbilim Computer Engineering and Computer Science and Control Linguistics |
Abstract: | Türkçe 1920'lerden günümüze kadar gelen süreçte Dil Devrimi'nin etkisiyle önemli yapısal değişikliklere uğradı. Dil Devrimi'nin amaçlarına uygun olarak Türkçe üzerinde yabancı dillerin etkisini azaltacak şekilde adımlar atıldı. Bu müdahaleler sebebiyle dile pek çok yeni kelime girerken bir o kadar kelime de günümüzde kullanılmamaya başlandı. Kelime dağarcığındaki değişimlerin dışında dilin imla ve gramer kurallarında da değişiklikler görüldü. Bu çalışmada Türkçe'nin bu hızlı değişimini motivasyon kabul ederek bu çalışmada eş anlamlı kelimelerin diyakronik hesaplamalı diyakronik analizi gerçekleştirildi. İlk olarak 1920'lerden 2020'lere kadar dönemi kapsayan modern Türkçe'nin en büyük diyakronik korpusu Turkronicles'ı oluşturuldu ve bu korpus üzerinde frekans analizleri gerçekleştirildi. Ayrıca korpusla beraber diyakronik analizlerde n-gram'lar, diyakronik kelime vektörleri, bir yazılım kütüphanesi, dijitalleştirilmiş karşılıklar sözlüğü gibi çeşitli kaynakları kullanıma sunuldu. Analizlerimiz sonucunda Türkçe'nin kelime dağarcığının yıllar geçtikçe önemli ölçüde değiştiğini gördük. İmla kurallarının nasıl değiştiğini gözlemlemek için spesifik olarak sonu -b/-p ve -d/-t ile biten kelimeleri inceledik ve benzer bir sonuçla karşılaşıldı. Analizler bütünüyle ele alındığında oluşturduğumuz kaynakların aslında diyakronik analiz için uygunluğunu gösterdi veviii dilin ne ölçüde değiştiğini gözler önüne serdi. Ardından bu kaynakları kullanarak farklı tarihlerde kullanılmış eş anlamlı kelimeleri tespit etmeye yarayan iki farklı yöntem önerdik. Bu yöntemler esasında ortogonal dönüşüm matrisini bulmaya dayanır. Sonrasında önerdiğimiz yöntemler doğrusal dönüşüm matrisine dayalı temel bir yöntem ile karşılaştırıldı. Yöntemlerin başarısı iki farklı vektör algoritması üzerinden test edildi. Buna ek olarak zaman farkı arttıkça yöntemlerin performansının nasıl değiştiği gözlemlenip değerlendirildi. Deneylerin sonuçlarında önerilen yöntemlerin temel yöntemden daha iyi bir performans sergilediğini ve zaman farkına daha dayanıklı olduğu gözlemlendi. Son olarak eş anlamlı kelimelerin zamanla anlamının nasıl değiştiğini görmek adına çeşitli deneyler yürütüldü. Spesifik olarak eş anlamlı kelimelerin anlam daralması ve genişlemesi dinamikleri incelendi. İlk olarak Turkronicles korpusunda yer alan hatalı kelimeleri düzeltmek için bir Kodlayıcı-Çözücü modeli eğitildi ve bir test kümesi oluşturuldu. Hatalı kelimeler düzeltildikten sonra anlam daralması ve genişlemesini kelime ilişki çizgesi ve bir merkeziyet ölçütü etrafında modellendi. Ardından bu ölçütün bir eş anlamlı çifti için zaman boyunca nasıl değiştiğini gözlemlemek için Spearman korelasyon katsayısını hesaplandı. Son olarak birbirlerinin değişimini ne kadar etkilediğini ölçmek için bir Doğrusal Karma Model eğitildi. Deney sonuçlarına dayanarak eş anlamlı bir kelimenin anlamı genişlerken diğerinin anlamının daraldığı tespit edildi. Turkish has undergone significant structural changes from the 1920s to the present day, influenced by the Turkish Language Reform. In line with the aims of the Language Reform, steps were taken to reduce the influence of foreign languages on Turkish. As a result of these interventions, many new words were introduced into the language, while many words fell out of use over time. Beyond changes in vocabulary, modifications were also observed in the spelling and grammar rules of the language. This study takes the rapid evolution of Turkish as its motivation and conducts a diachronic computational analysis of synonym words. First, we created Turkronicles, the largest diachronic corpus of modern Turkish, covering the period from the 1920s to the 2020s, and performed frequency analyses on this corpus. Additionally, we made various resources available for diachronic analyses, such as n- grams, diachronic word vectors, a software library, and a digitized dictionary of synonym words. Our analyses revealed that Turkish vocabulary has significantly changed over the years. To observe changes in spelling rules, we specifically examined words ending in -b/-p and -d/-t and encountered similar results. Overall, our analyses demonstrated the suitability of the resources we created for diachronic analysis and highlighted the extent of evolution of Turkish. Using these resources,x we proposed two different methods to identify synonym words used in different time periods. These methods are essentially based on finding an orthogonal transformation matrix. We then compared the proposed methods to a baseline method, which relies on a linear transformation matrix. The effectiveness of our methods was tested using two different vector algorithms. Furthermore, we observed and evaluated how the performance of the methods varied with increasing temporal differences. Our experimental results showed that the proposed methods outperformed the baseline method and were more robust to temporal differences. Finally, we conducted various experiments to explore how the meanings of synonymous words change over time. Specifically, we examined the dynamics of semantic specialization and generalization of synonymous words. Initially, we trained an encoder-decoder model to correct misspelled words in the Turkronicles corpus and created a test set. After correcting the misspelled words, we modeled semantic specialization and generalization using a word association graph and a centrality measure. To observe how this measure changes over time for a pair of synonyms, we calculated the Spearman correlation coefficient. Lastly, we trained a Linear Mixed Model to measure the extent to which the changes in one synonym affect the other. Based on the experimental results, we found that when the meaning of one word generalizes, the meaning of its synonym tends to specializes. |
URI: | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=E_eEUHQic_C-LvhxNQn1W3aKtxcb_LTvcxygTe3Q8Vckp2hJasfqkGDOhUDtMfrN https://hdl.handle.net/20.500.11851/12431 |
Appears in Collections: | Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses |
Show full item record
CORE Recommender
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.