Wie ein Maß für einen Gesamtfehler in diesem Clustering berechnen

https://stackoverflow.com/questions/2751052

02-10-2019
|

Frage

Dies ist eine Frage über k-Mittel-Cluster-Algorithmus. Ich habe folgende Punkte und Clustering von Daten S1. Kann mir jemand sagen, wie die Gesamt Fehler mit diesem Clustering zugeordnet berechnen? Ich weiß, es ist nicht eine streng Programmierung Frage, aber ich brauche es für meinen Algorithmus. Ich denke, die Antwort sollte 4/3 sein, aber ich habe keine Ahnung, wie diese zu berechnen. Kann mir jemand helfen?

x1= (2.0,1.0)
x2= (2.0,2.0)
x3= (1.0,2.0)

S1={ x1, x2, x3 }

Lösung

Es gibt viele Möglichkeiten, den Fehler zu berechnen. Hier ist eine.

Zuerst berechnet den Schwerpunkt des Satzes, C1 = (x1 + x2 + x3) / 3. Dann berechnet die Fehler als die Summe der Abstände von dem Schwerpunkt: E1 = d (C1-x1) + d (C1-x2) + d (C1-x3).

Andere Tipps

Ich hatte für etwas ähnliches in den letzten paar Wochen zu suchen. Wie bei den meisten Dingen, die richtigen Namen sehr geholfen zu finden. Sie suchen einen Cluster Gültigkeit Index. Ich fand eine nützliche Quelle für Algorithmen (und zugehörige Mathematik) Kapitel 17 der „Data Clustering Theorie, Algorithmen und Anwendungen“ von Gan, Ma und Wu zu sein. Nicht billig bei $ 100 + von Amazon, aber ich werde den Rest des Buchs nützlich finden. Obwohl es eine Menge von diesen Indizes umfasst, es fehlt eine gute Diskussion über die Stärken und Schwächen, so dass Sie einige Online-Suche benötigen.

Am Ende habe ich versucht, die Davies Bouldin Index und Dunn Index. Dunn war besser, aber war sehr langsam zu berechnen ich auf eine vereinfachte Version abgewickelt, die Schwerpunkt-Schwerpunktabstände verwendet (anstelle von Komponente Punkt-Punkt-Strecken) und max Radius von Schwerpunkt, anstatt wahren Durchmesser. Bisher das funktioniert gut für mich.

die meisten der verschiedenen Indizes verwenden Maßnahmen der Clustergröße und Trennung.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow