Ищу алгоритм, который правильно кластеры визуально разделяемые кластеры

datascience.stackexchange https://datascience.stackexchange.com/questions/13073

Вопрос

Я визуализировал набор данных в 2D после использования PCA. Как показывает 2D визуализация на рисунке, существует хорошее разделение между точками (A, B). Теперь я хочу использовать метрику, которая может разделить эти точки (между этими двумя компонентами ПК, а также в основном наборе данных). Я имею в виду разделение между этими компонентами PCA без визуализации. Я использовал некоторые методы кластеризации, но они поднимают ложные позитивы. Я имею в виду, что они скучают по кластеру много очков.

Кроме того, как показано на гистограмме, существует разрыв между точками a, b. Помогает ли это в разработке какой -либо метрики?

Я буду так благодарен, если вы сможете представить мне любой метод и алгоритм, чтобы иметь возможность делать разделение между A и B.

enter image description here enter image description here

Это было полезно?

Решение

С соответствующими параметрами DBSCAN и иерархическая агломерационная кластеризация с одной связью должны работать очень хорошо. Эпсилон = 0,2 или около того.

Но почему? Вы знаете данные, просто Используйте порог.

Если вы просто хотите, чтобы алгоритм «подтвердил» ваш желаемый результат, то вы используете его неправильно. Будьте честны: если вы хотите, чтобы ваш результат был «если $ f-factor-1> 1,5, то Cluster1 Else Cluster2», то просто скажите об этом, вместо того, чтобы пытаться найти алгоритм кластеризации, чтобы соответствовать желаемому решению!

Другие советы

Эта картина от Scikit-learn Может помочь вам получить представление о том, какие методы дадут хороший результат в вашем случае, а что нет, и почему.

enter image description here

Использование алгоритма кластеризации K-средних в этом наборе данных должно работать совершенно хорошо. Вам просто нужно передать матрицу (n_samples, 2), где элемент $ (i, j) $ представляет собой координату j-й образца I в PCA для любого алгоритма K-средних и указать, что вы хотите 2 кластера и евклидовый показатель.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top