Vorhersageanalyse seltener Ereignisse

https://datascience.stackexchange.com/questions/8646

16-10-2019
|

Frage

Ich versuche seltene Ereignisse vorherzusagen, was weniger als 1% der positiven Fälle bedeutet. Ich versuche grundsätzlich vorherzusagen, ob ein Subjekt 0, 1, 2 ..., 6,> 6 Fehler hat (es gibt Fälle in all diesen Kategorien).

Ich habe mehrere Algorithmen ausprobiert:

Entscheidungsbäume
Zufallswald
Adaboost
Gruppierung mit K-Means-Clustering und Finden von Assoziationen mit Fehlern (welche Gruppe hat das meiste Fehler)

In jedem Fall geht das Lernen entweder zu einem Scheitern oder hat zu viel Abweichung (führende schlechte Wiederaufnahmen am CV -Set).

Kennen Sie Algorithmen für maschinelles Lernen, die besser für seltene Ereignisse geeignet sind?

Oder ist es überraschend, dass ich diese schlechten Ergebnisse mit diesen Algorithmen bekomme, was bedeutet, dass meine Funktionsliste nicht gut ist?

Danke vielmals.

Lösung

Wenn Sie einen unausgeglichenen Datensatz haben, wird der Algorithmus seinen Erfolg bei jedem Datenpunkt gleichermaßen gewichten, was bedeutet, dass die Mehrheitsklasse genauso wichtiger ist als die Minderheitenklasse. Die typische Lösung besteht darin, die Mehrheitsklasse zu probieren, bis sie die gleiche Größe wie die Minderheitenklasse hat, und eine alternative (ähnliche) Lösung besteht darin, die Kostenfunktion so anzupassen, dass die Minderheitsklasse angemessen gewichtet wird.

Sehen Sie diese ähnlichen Fragen an mehr:

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange