Vorhersageanalyse seltener Ereignisse
-
16-10-2019 - |
Frage
Ich versuche seltene Ereignisse vorherzusagen, was weniger als 1% der positiven Fälle bedeutet. Ich versuche grundsätzlich vorherzusagen, ob ein Subjekt 0, 1, 2 ..., 6,> 6 Fehler hat (es gibt Fälle in all diesen Kategorien).
Ich habe mehrere Algorithmen ausprobiert:
- Entscheidungsbäume
- Zufallswald
- Adaboost
- Gruppierung mit K-Means-Clustering und Finden von Assoziationen mit Fehlern (welche Gruppe hat das meiste Fehler)
In jedem Fall geht das Lernen entweder zu einem Scheitern oder hat zu viel Abweichung (führende schlechte Wiederaufnahmen am CV -Set).
Kennen Sie Algorithmen für maschinelles Lernen, die besser für seltene Ereignisse geeignet sind?
Oder ist es überraschend, dass ich diese schlechten Ergebnisse mit diesen Algorithmen bekomme, was bedeutet, dass meine Funktionsliste nicht gut ist?
Danke vielmals.
Lösung
Wenn Sie einen unausgeglichenen Datensatz haben, wird der Algorithmus seinen Erfolg bei jedem Datenpunkt gleichermaßen gewichten, was bedeutet, dass die Mehrheitsklasse genauso wichtiger ist als die Minderheitenklasse. Die typische Lösung besteht darin, die Mehrheitsklasse zu probieren, bis sie die gleiche Größe wie die Minderheitenklasse hat, und eine alternative (ähnliche) Lösung besteht darin, die Kostenfunktion so anzupassen, dass die Minderheitsklasse angemessen gewichtet wird.
Sehen Sie diese ähnlichen Fragen an mehr:
- Sollte ich einen "ausgewogenen" Datensatz oder einen "repräsentativen" Datensatz entscheiden?
- Schnelle Anleitung zum Training stark unausgewogene Datensätze
- Was sind die Auswirkungen auf das Training eines Baumensemble mit hochvoreingenommenen Datensätzen?
- Verdrehte Multi-Class-Daten
- Verhältnis der positiven zu negativen Stichprobe im Datensatz für die beste Klassifizierung