Domanda

sto usando k-means clustering per i processi in esecuzione su macchine.

set di dati campione:

machine name, process
m1,java
m2,tomcat
m1,word
m3,excel

Costruire una matrice di conteggi associati:

   java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1

Ho poi eseguito k-means contro questo insieme di dati (hanno provato euclidee e Manhattan funzioni di distanza) L'insieme di dati è estremamente scarsa che mi sembra causare i cluster generati a non molto senso altrettante macchine vengono raggruppate in stesso cluster (in quanto sono molto simili)

Come realizzare cluster in cui ogni cluster contiene circa lo stesso numero di punti? O forse questo non è possibile a causa della scarsità dei dati e invece avrei dovuto cercare di cluster su un diversi attributi di set di dati?

È stato utile?

Soluzione

Analisi

??Cluster non è dovrebbe per produrre paritions di uguali dimensioni. Esso è destinato a scoprire la struttura nei dati.

Se la maggior parte degli oggetti è molto simile, quindi questa maggioranza dovrebbe essere nel cluster maggioranza.

Si consideri tutti i dati è identico. Qualsiasi algoritmo di clustering che produce più di un cluster ha fallito, a mio parere ...

Così si può essere utilizzando la classe sbagliata di algoritmi per il vostro problema.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top