Interpretation Naive Bayes Ergebnisse
-
01-10-2019 - |
Frage
Ich beginne mit NaiveBayes / Einfachen Klassifikator für die Klassifizierung (Weka), jedoch habe ich einige Probleme zu verstehen, während die Daten zu trainieren. Der Datensatz Ich verwende weather.nominal.arff ist.
Während ich Verwendung Trainingstest aus den Optionen verwenden, das Klassifikator Ergebnis ist:
Correctly Classified Instances 13 - 92.8571 %
Incorrectly Classified Instances 1 - 7.1429 %
a b classified as
9 0 a =yes
1 4 b = no
Meine erste Frage, was soll ich von den nicht korrekt zugeordnete Instanzen verstehen? Warum solch ein Problem aufgetreten ist? die Attributsammlung ist falsch klassifiziert? gibt es eine Möglichkeit, diese?
zu verstehenZweitens, wenn ich die 10-fache Kreuzvalidierung versuchen, warum ich anders (weniger) korrekt klassifiziert Instanzen?
Die Ergebnisse sind:
Correctly Classified Instances 8 57.1429 %
Incorrectly Classified Instances 6 42.8571 %
a b <-- classified as
7 2 | a = yes
4 1 | b = no
Lösung
Sie können die einzelnen Vorhersagen für jede Instanz erhalten, indem Sie diese Option wählen aus:
Weitere Optionen ...> Ausgabe Prognosen> Plaintext
Welche Sie zusätzlich zu den Bewertungsmetriken geben, die folgenden:
=== Predictions on training set ===
inst# actual predicted error prediction
1 2:no 2:no 0.704
2 2:no 2:no 0.847
3 1:yes 1:yes 0.737
4 1:yes 1:yes 0.554
5 1:yes 1:yes 0.867
6 2:no 1:yes + 0.737
7 1:yes 1:yes 0.913
8 2:no 2:no 0.588
9 1:yes 1:yes 0.786
10 1:yes 1:yes 0.845
11 1:yes 1:yes 0.568
12 1:yes 1:yes 0.667
13 1:yes 1:yes 0.925
14 2:no 2:no 0.652
, die anzeigt, dass die sechsten Instanzen falsch klassifiziert wurden. Beachten Sie, dass selbst wenn Sie trainieren und Test auf denselben Fällen können Fehlklassifikationen aufgrund von Inkonsistenzen in den Daten auftreten (das einfachste Beispiel ist mit zwei Instanzen mit den gleichen Funktionen, aber mit unterschiedlichem Klassenlabel).
Beachten Sie, dass die obige Art und Weise der Prüfung vorgespannt ist (seine etwas zu betrügen, da es die Antworten auf die Fragen sehen). So sind wir in der Regel in immer eine realistischere Schätzung der Modellfehler auf unsichtbare Daten interessiert. Kreuzvalidierung Eine solche Technik ist, in dem es die Daten in 10 partitionieren geschichteten falten, auf einer der Test Durchführung falten, während des Trainings auf der anderen neun schließlich meldet es die durchschnittliche Genauigkeit über die zehn Läufe.