Frage

Ich verwende K-Means-Clustering für Prozesse, die auf Maschinen ausgeführt werden.

Dataset -Beispiel:

machine name, process
m1,java
m2,tomcat
m1,word
m3,excel

Erstellen Sie eine Matrix der zugehörigen Zählungen:

   java,tomcat,word,excel
m1,1,0,1,0
m2,0,1,0,0
m3,0,0,0,1

Ich leite dann K-Means gegen diesen Datensatz (habe es mit euklidischen und Manhattan-Distanzfunktionen ausprobiert). Der Datensatz ist äußerst spärlich, was meiner Meinung nach die erzeugten Cluster nicht viel Sinn machen, da viele Maschinen in denselben Cluster gruppiert werden (wie sie sehr sind, sehr ähnlich)

Wie kann man Cluster erreichen, bei denen jeder Cluster ungefähr gleiche Anzahl von Punkten enthält? Oder vielleicht ist dies aufgrund der Sparnissenheit der Daten nicht möglich und stattdessen sollte ich versuchen, mich auf eine andere Attribute des Datensatzes zu gruppieren?

War es hilfreich?

Lösung

Die Clusteranalyse ist nicht soll Paritionen gleicher Größe zu erzielen. Es soll die Struktur in den Daten entdecken.

Wenn die Mehrheit der Objekte sehr ähnlich ist, soll diese Mehrheit im Mehrheitscluster liegen.

Betrachten Sie alle Ihre Daten identisch. Jeder Clustering -Algorithmus, der mehr als einen Cluster produziert, ist meiner Meinung nach gescheitert ...

Möglicherweise verwenden Sie möglicherweise die falsche Klasse von Algorithmen für Ihr Problem.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top