Akan veri kümeleme, teknolojik
gelişmelere paralel olarak veri miktarının inanılmaz boyutlara ulaştığı
gümünüzün popüler konularından biridir. Akan veri kümeleme yaklaşımlarında
karşılaşılan en önemli problemler çoğu yaklaşımın çevrimiçi ve çevrimdışı
evreden oluşması, küme sayısını tanımlama veya bu sayıya bir sınır koyma
zorunluluğu, en doğru yarıçap değerini belirlemede yaşanan problemler ve
önerilen modellerin kendisini gelen yeni verilere adapte etmesinde (concept
evolution) yaşanan problemlerdir. Bu
problemlerin yanında, neredeyse bu alandaki bütün çalışmaların sayısal miktar
tabanlı bir özetleme yapması da bazı uygulamalar için ihtiyacı
karşılamamaktadır. Oysa son 1 saniyede veya son 1 saatte gelen veriler şeklinde
çalışan zaman tabanlı bir özetleme yaklaşımına da ihtiyaç vardır. Bu çalışmada,
K-boyutlu ağaç, uyarlanabilir yarıçap tabanlı (KD-AR Stream) ve kümeleme
adaptasyonu özelliğine sahip gerçek zamanlı akan verileri kümeleyen bir
yaklaşım önerilmektedir. Önerdiğimiz yöntem SE-Stream, DPStream ve CEDAS
algoritmaları ile hem kümeleme başarısı hem de işlem performansı açısından
karşılaştırılmıştır. Elde edilen sonuçlar KD-AR Stream algoritmasının diğer
algoritmalara göre yüksek bir kümeleme başarısını makul bir sürede
gerçekleştirdiğini göstermektedir.
Akan veri kümeleme k-boyutlu ağaç uyarlanabilir yarıçap tamamen çevrimiçi evrimsel kümeleme
Data stream clustering is one
of the most popular topics of today's world where the amount of data
reaches incredible levels in parallel with technological developments. The most
important problems encountered in data stream clustering approaches are the
fact that most of the approaches consists of an online and offline phases, the
definition of the number of cluster, or the need to set a limitation to this
number, the problems encountered in determining optimum radius value, and the
problems encountered in concept evolution. The present study proposes an
evolutionary based solution method, which is based on Kd-Tree and adaptive
radius (KD-AR Stream) to perform real-time clustering on the streaming data.
The proposed approach has been compared with SE-Stream, DPStream and CEDAS
algorithms in terms of both cluster quality and execution time. The results
showed that KD-AR Stream algorithm has a good clustering performance within a reasonable
time by comparison with the other algorithms.
Data stream clustering kd-tree adaptive radius fully online evolving clustering
Birincil Dil | Türkçe |
---|---|
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 25 Ekim 2019 |
Gönderilme Tarihi | 4 Ekim 2018 |
Kabul Tarihi | 18 Mayıs 2019 |
Yayımlandığı Sayı | Yıl 2020 Cilt: 35 Sayı: 1 |