Online k-means Clustering

https://stackoverflow.com/questions/3698532

02-10-2019
|

Frage

Gibt es eine Online-Version des k-Means-Clustering Algorithmus?

Mit dem Online-ich meine, dass jeder Datenpunkt in seriell verarbeitet wird, zu einem Zeitpunkt ein, als sie in dem System eindringen, damit Zeitersparnis Berechnung, wenn sie in Echtzeit verwendet.

Ich habe geschrieben eine meine Selbst mit guten Ergebnissen, aber ich würde wirklich lieber etwas haben „standardisiert“ zu beziehen, da es in meiner Diplomarbeit verwendet werden soll.

Auch hat jemand Tipps für andere Online-Clustering-Algorithmen? (Lmgtfy gescheitert;))

Lösung

Ja, es gibt. Google scheiterte, es zu finden, weil es mehr ist allgemein als „sequential k-means“ bekannt ist.

Sie können zwei Pseudo-Code finden Implementierungen von aufeinanderfolgenden K-Mittel in In diesem Abschnitt wird von einigen Anmerkungen Princeton CS Klasse von Richard Duda . Ich habe eine der beiden Implementierungen im Folgenden wiedergegeben:

Make initial guesses for the means m1, m2, ..., mk
Set the counts n1, n2, ..., nk to zero
Until interrupted
    Acquire the next example, x
    If mi is closest to x
        Increment ni
        Replace mi by mi + (1/ni)*( x - mi)
    end_if
end_until

Die schöne daran ist, dass Sie nur daran erinnern müssen, um den Mittelwert der einzelnen Cluster und die Zählung der Anzahl von Datenpunkten des Cluster zugewiesen. Sobald Sie diese beiden Variablen aktualisieren, können Sie den Datenpunkt wegzuwerfen.

Ich bin mir nicht sicher, wo Sie es ein Zitat finden würden. Ich würde beginnen in Duda klassischen Text Pattern Classification und Szenenanalyse oder die neuere Version der Suche Pattern Classification . Wenn er nicht da ist, könnten Sie Chris Bishop neuestes Buch oder Daphne Koller und Nir Friedman jüngsten Text versuchen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow