Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.11851/2309
Title: | Bağlı Veri Kaynakları ve İlişkileri Kullanılarak Haberlerin Öbeklendirilmesi | Other Titles: | News Clustering Using Linked Data Resources and Their Relationships | Authors: | Yücesan, Mert Mehmet | Advisors: | Doğdu, Erdoğan | Keywords: | News clustering Linked data Semantic Web Semantic similarity Haber öbekleme Baglı veri Anlamsal Web Anlamsal benzerlik |
Publisher: | TOBB University of Economics and Technology,Graduate School of Engineering and Science TOBB ETÜ Fen Bilimleri Enstitüsü |
Source: | Yücesan, M. (2016). Bağlı veri kaynakları ve ilişkileri kullanılarak haberlerin öbeklendirilmesi. Ankara: TOBB ETÜ Fen Bilimleri Enstitüsü. [Yayınlanmamış yüksek lisans tezi] | Abstract: | Metin veya doküman öbeklendirilmesi, aynı konuyla ilgili olan metin belgelerinin belirlenerek gruplandırılması işlemidir. Bu işlem, metin belgelerinin sayısının artmaya devam ettiği sürekli büyüyen Web için özellikle önemlidir. Haber öbeklendirilmesi bu alanda, haber belgelerinin konu bazında sınıflandırılmasının hedeflendiği özel bir konudur. Bu probleme ilişkin daha önce geliştirilmiş çözümler, belgelerin içlerinde geçen kelimelerle ve bu kelimelerin sıklıklarıyla temsil edildiği ``sözcük çantası'' yaklaşımını kullanmıştır ve öbeklendirme işlemi belgelerin bu gösterimi kullanılarak ölçülen benzerlikler kullanılarak yapılmıştır. Bununla birlikte, bu yaklaşım sözcüklerin anlamını veya önemini dikkate almaz ve sözcüklerdeki muğlaklık çözümlenmez. Bu çalışmada doküman veya haber öbeklendirilmesi konusunda ``bağlı veri'' kullanan yeni bir yaklaşım geliştirilmiştir. Bu yaklaşımda haber belgelerindeki sözcükler ve cümleler, DBpedia gibi bağlı veri bilgi tabanlarındaki gerçek dünya karşılıklarına eşlenir ve belgeler sahip oldukları bağlı veri varlıklarıyla temsil edilmektedir. Daha sonra haberler bu varlıklar ve bu varlıkların kategori hiyerarşisi benzerlikleri kullanılarak öbeklendirilmektedir. Değerlendirme sonuçları, geliştirilen yaklaşımın kelime çantasına göre daha iyi sonuç verdiğini göstermektedir. Text clustering or document clustering is the task of identifying and grouping text documents that are about the same topic. This is especially important for the ever growing Web where the number of free-text documents just keep increasing. News clustering is a special task in this domain in which the goal is to classify news documents by topic. Earlier solutions on this problem utilized ``bag of words'' approach in which documents are represented with words and their frequencies in documents, and the clustering task measures the similarity of documents using this representation. However, this approach does not take into consideration the meaning or the importance of words and ambiguity in words is not resolved. We present a new approach to document or news clustering, we utilize ``linked data''. We map words or phrases in news documents to their real-world counterparts in ``linked data'' knowledge bases such as DBpedia and represent documents with linked data entities they have. Then we cluster documents using these entities and their category hierarchy similarities. Evaluation results show that our approach performs better than the bag of words approach. |
URI: | https://hdl.handle.net/20.500.11851/2309 https://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp |
Appears in Collections: | Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
450647.pdf | 844.35 kB | Adobe PDF | View/Open |
CORE Recommender
Page view(s)
174
checked on Dec 16, 2024
Download(s)
28
checked on Dec 16, 2024
Google ScholarTM
Check
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.