Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.11851/2288
Title: | Özelleştirilmiş Analitik Bulut Mimarilerinde Dağıtık Dosya Sistemleri ile Performans İyileştirilmesi | Other Titles: | Performance Improvement Via Distribited File Systems on Private Analytic Clouds | Authors: | Ağca, Muhammed Akif | Advisors: | Doğdu, Erdoğan | Keywords: | Microblog text Big data Interactive analytic Distributed analytics Stream data analytics Distributed file system Distributed system Mikroblog metin Büyük veri İnteraktif analitik Dağıtık analitik Akan veri analizleri Dağıtık dosya sistemi Dağıtık sistem |
Publisher: | TOBB University of Economics and Technology,Graduate School of Engineering and Science TOBB ETÜ Fen Bilimleri Enstitüsü |
Source: | Ağca, M. (2015). Özelleştirilmiş analitik bulut mimarilerinde dağıtık dosya sistemleri ile performans iyileştirilmesi. Ankara: TOBB ETÜ Fen Bilimleri Enstitüsü. [Yayınlanmamış yüksek lisans tezi] | Abstract: | Teknoloji ve sosyal medyanın hızlı gelişimiyle veri hızı, hacmi ve çeşitliliği artış göstermektedir. Biriken veriye anlık olarak erişim ve karar desteği sağlanması mevcut teknolojiler ile mümkün olmamaktadır. Toplanan verilerin anlık olarak analiz edilmesi ve metin verilerinden bilgi çıkarımları standart veri tabanları ile yapılamamaktadır. Mevcut çözüm ve yöntemler de Türkçe metin için kısıtlı analiz yetenekleri bulunmaktadır. Bu çalışmada veri yoğun, işlemci yoğun uygulamalar için özelleştirilmiş dağıtık analitik sistem ve uygulamaları geliştirilmektedir. Bu sistemde dağıtık dosya sistemlerinin kullanımı ile performans iyileştirmeleri yapılmıştır. Tasarlanmış olan tek düğümlü ve çok düğümlü sistemlerde performans iyileştirmeleri gözlemlenmiştir. Dağıtık analitik sistemin dağıtık dosya sistemleriyle tasarlanmasıyla hızlı sonuçlar elde edilebileceği gözlemlenmiştir. Mikroblog metin analitiği için özelleştirilmiş platformda farklı algoritmaların performans ve doğruluk değerlendirmeleri yapılmıştır. Mikroblog metin analitiği için dağıtık skorlama algoritmasının k-means kümeleme algoritmasına göre daha hızlı çalıştığı gözlemlenmiştir. Metin analitiği için geliştirilmiş dağıtık algoritmalar tek düğümlü ve çok düğümlü sistemlerde performans olarak karşılaştırılmıştır. Küme performansında bellek kısıtlarının kritikliği gözlemlenmiş ve sistemin bellek ihtiyaçları değerlendirilmiştir. Geliştirilen dağıtık analitik sistem sayesinde büyük verinin hızlı sorgulanmasına imkân sağlanmaktadır. Uygulamalar için jenerik ve ölçeklenebilir depolama katmanları sağlanmaktadır. Dağıtık analitik uygulamalar için dağıtık mimari kullanımı önerilmektedir. Dağıtık dosya sistemlerinin ölçeklenebilir otomatik düğüm ekleme çıkarma özellikleri sayesinde donanımlar maksimum verimlilikte kullanılmakta ve ölçekleme minimum donanım ve zaman maliyeti ile yapılabilmektedir. Sonuç olarak, dağıtık dosya sistemlerinin özelleştirilmiş analitik bulut mimariler üzerinde analitik işlemler için önemli performans iyileştirmeleri sağladığı ve analitik işlemler için verimliliği arttırdığı gözlemlenmiştir. Improvements on current technologies and social media cause increase in data volume, variety, and velocity. Instant access to stored data and providing decision support is very hard with current technologies. Standard data base technologies cannot analyze the data and retrieve information from text data. Current solutions and methodologies have restricted analysis capabilities for Turkish texts. In this study a distributed analytical system and applications are developed for data bound and CPU bound applications. Performance improvements via distributed file systems are implemented on the system. The improvements are observed on single node and multi node systems. Faster results are obtained via distributed file systems on distributed analytical system. Different algorithms are evaluated in terms of performance and correctness for microblog text analytics on private distributed analytical system. Distributed scoring algorithm gives faster results than k-means clustering algorithm for microblog text analytics. The distributed algorithms developed for text analytics are implemented on single node and multi node systems and compared in terms of cluster performance. Memory constraints are observed on cluster performance and minimum memory requirement of the system is evaluated. Faster querying on big data is provided via the distributed analytical system. Generic and scalable storage layer is provided for applications. Distributed architecture usage is proposed for distributed analytical applications. Hardware can be used with maximum efficiency, and node replacement can be done at minimum time and minimum hardware cost with the scalability and automated node replacement features of distributed file systems. To sum up, it is observed that distributed file systems provide important performance improvements and improve efficiency for analytical operations on private analytical clouds. |
URI: | https://hdl.handle.net/20.500.11851/2288 https://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp |
Appears in Collections: | Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
409937.pdf | 898.84 kB | Adobe PDF | View/Open |
CORE Recommender
Page view(s)
570
checked on Dec 16, 2024
Download(s)
114
checked on Dec 16, 2024
Google ScholarTM
Check
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.