Frage

Ich habe einen Datensatz in 2D visualisiert, nachdem ich PCA eingesetzt habe.Wie die 2D-Visualisierung in der Abbildung zeigt, besteht eine gute Trennung zwischen den Punkten (A, B).Jetzt möchte ich eine Metrik verwenden, die auch diese Punkte (zwischen diesen beiden PC-Komponenten, die nicht im Hauptdatensatz enthalten sind) trennen kann.Ich meine, eine Trennung zwischen diesen PCA-Komponenten ohne Visualisierung.Ich habe einige Clustering-Methoden verwendet, aber sie führen zu falsch positiven Ergebnissen.Ich meine, sie verfehlen viele Punkte.

Außerdem gibt es, wie im Histogramm gezeigt, eine Lücke zwischen den Punkten A und B.Hilft dies bei der Entwicklung einer Metrik?

Ich wäre Ihnen sehr dankbar, wenn Sie mir eine Methode und einen Algorithmus vorstellen könnten, mit denen ich die Trennung zwischen A und B durchführen kann.

enter image description here enter image description here

War es hilfreich?

Lösung

Mit geeigneten Parametern sollten DBSCAN und hierarchisches agglomeratives Clustering mit einzelner Verknüpfung sehr gut funktionieren.Epsilon = 0,2 oder so.

Aber warum?Sie kennen einfach die Daten Verwenden Sie einen Schwellenwert.

Wenn Sie nur möchten, dass ein Algorithmus Ihr gewünschtes Ergebnis „bestätigt“, dann verwenden Sie ihn falsch.Sei ehrlich:Wenn Sie möchten, dass Ihr Ergebnis „Wenn $F-Faktor-1 > 1,5, dann Cluster1, sonst Cluster2“ lautet, dann sagen Sie es einfach, anstatt zu versuchen, einen Clustering-Algorithmus zu finden, der zu Ihrer gewünschten Lösung passt!

Andere Tipps

Dieses Bild von Scikit-Learn Kann Ihnen helfen, Einblicke zu erhalten, welche Methoden ein gutes Ergebnis in Ihrem Fall liefern und was nicht und warum.

enter image description here

Die Verwendung von K-Means-Clustering-Algorithmus in diesem Datensatz sollte perfekt gut funktionieren. Sie müssen nur die (n_samples, 2) Matrix übergeben, wobei Element $ (i, j) $ die j-te-te-Koordinate von Probe I in der PCA zu einem k-means-Algorithmus darstellt, und geben an, dass Sie 2 Cluster und euklidisch möchten metrisch.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top