Suchen Sie nach einem Algorithmus, der visuell trennbare Cluster korrekt gruppiert
-
16-10-2019 - |
Frage
Ich habe einen Datensatz in 2D visualisiert, nachdem ich PCA eingesetzt habe.Wie die 2D-Visualisierung in der Abbildung zeigt, besteht eine gute Trennung zwischen den Punkten (A, B).Jetzt möchte ich eine Metrik verwenden, die auch diese Punkte (zwischen diesen beiden PC-Komponenten, die nicht im Hauptdatensatz enthalten sind) trennen kann.Ich meine, eine Trennung zwischen diesen PCA-Komponenten ohne Visualisierung.Ich habe einige Clustering-Methoden verwendet, aber sie führen zu falsch positiven Ergebnissen.Ich meine, sie verfehlen viele Punkte.
Außerdem gibt es, wie im Histogramm gezeigt, eine Lücke zwischen den Punkten A und B.Hilft dies bei der Entwicklung einer Metrik?
Ich wäre Ihnen sehr dankbar, wenn Sie mir eine Methode und einen Algorithmus vorstellen könnten, mit denen ich die Trennung zwischen A und B durchführen kann.
Lösung
Mit geeigneten Parametern sollten DBSCAN und hierarchisches agglomeratives Clustering mit einzelner Verknüpfung sehr gut funktionieren.Epsilon = 0,2 oder so.
Aber warum?Sie kennen einfach die Daten Verwenden Sie einen Schwellenwert.
Wenn Sie nur möchten, dass ein Algorithmus Ihr gewünschtes Ergebnis „bestätigt“, dann verwenden Sie ihn falsch.Sei ehrlich:Wenn Sie möchten, dass Ihr Ergebnis „Wenn $F-Faktor-1 > 1,5, dann Cluster1, sonst Cluster2“ lautet, dann sagen Sie es einfach, anstatt zu versuchen, einen Clustering-Algorithmus zu finden, der zu Ihrer gewünschten Lösung passt!
Andere Tipps
Dieses Bild von Scikit-Learn Kann Ihnen helfen, Einblicke zu erhalten, welche Methoden ein gutes Ergebnis in Ihrem Fall liefern und was nicht und warum.
Die Verwendung von K-Means-Clustering-Algorithmus in diesem Datensatz sollte perfekt gut funktionieren. Sie müssen nur die (n_samples, 2) Matrix übergeben, wobei Element $ (i, j) $ die j-te-te-Koordinate von Probe I in der PCA zu einem k-means-Algorithmus darstellt, und geben an, dass Sie 2 Cluster und euklidisch möchten metrisch.