Clustering non produce grappoli anche
-
16-10-2019 - |
Domanda
sto usando k-means clustering per i processi in esecuzione su macchine.
set di dati campione:
machine name, process
m1,java
m2,tomcat
m1,word
m3,excel
Costruire una matrice di conteggi associati:
java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1
Ho poi eseguito k-means contro questo insieme di dati (hanno provato euclidee e Manhattan funzioni di distanza) L'insieme di dati è estremamente scarsa che mi sembra causare i cluster generati a non molto senso altrettante macchine vengono raggruppate in stesso cluster (in quanto sono molto simili)
Come realizzare cluster in cui ogni cluster contiene circa lo stesso numero di punti? O forse questo non è possibile a causa della scarsità dei dati e invece avrei dovuto cercare di cluster su un diversi attributi di set di dati?
Soluzione
??Cluster non è dovrebbe per produrre paritions di uguali dimensioni. Esso è destinato a scoprire la struttura nei dati.
Se la maggior parte degli oggetti è molto simile, quindi questa maggioranza dovrebbe essere nel cluster maggioranza.
Si consideri tutti i dati è identico. Qualsiasi algoritmo di clustering che produce più di un cluster ha fallito, a mio parere ...
Così si può essere utilizzando la classe sbagliata di algoritmi per il vostro problema.