Frage

Ich beginne mit NaiveBayes / Einfachen Klassifikator für die Klassifizierung (Weka), jedoch habe ich einige Probleme zu verstehen, während die Daten zu trainieren. Der Datensatz Ich verwende weather.nominal.arff ist.

alt text

Während ich Verwendung Trainingstest aus den Optionen verwenden, das Klassifikator Ergebnis ist:

Correctly Classified Instances 13  -  92.8571 %    
Incorrectly Classified Instances 1 - 7.1429 %   

a b classified as  
9 0  a =yes
1 4  b = no

Meine erste Frage, was soll ich von den nicht korrekt zugeordnete Instanzen verstehen? Warum solch ein Problem aufgetreten ist? die Attributsammlung ist falsch klassifiziert? gibt es eine Möglichkeit, diese?

zu verstehen

Zweitens, wenn ich die 10-fache Kreuzvalidierung versuchen, warum ich anders (weniger) korrekt klassifiziert Instanzen?

Die Ergebnisse sind:

Correctly Classified Instances           8               57.1429 %
Incorrectly Classified Instances         6               42.8571 %

 a b   <-- classified as
 7 2 | a = yes
 4 1 | b = no
War es hilfreich?

Lösung

Sie können die einzelnen Vorhersagen für jede Instanz erhalten, indem Sie diese Option wählen aus:

  

Weitere Optionen ...> Ausgabe Prognosen> Plaintext

Welche Sie zusätzlich zu den Bewertungsmetriken geben, die folgenden:

=== Predictions on training set ===

 inst#     actual  predicted error prediction
     1       2:no       2:no       0.704 
     2       2:no       2:no       0.847 
     3      1:yes      1:yes       0.737 
     4      1:yes      1:yes       0.554 
     5      1:yes      1:yes       0.867 
     6       2:no      1:yes   +   0.737 
     7      1:yes      1:yes       0.913 
     8       2:no       2:no       0.588 
     9      1:yes      1:yes       0.786 
    10      1:yes      1:yes       0.845 
    11      1:yes      1:yes       0.568 
    12      1:yes      1:yes       0.667 
    13      1:yes      1:yes       0.925 
    14       2:no       2:no       0.652 

, die anzeigt, dass die sechsten Instanzen falsch klassifiziert wurden. Beachten Sie, dass selbst wenn Sie trainieren und Test auf denselben Fällen können Fehlklassifikationen aufgrund von Inkonsistenzen in den Daten auftreten (das einfachste Beispiel ist mit zwei Instanzen mit den gleichen Funktionen, aber mit unterschiedlichem Klassenlabel).

Beachten Sie, dass die obige Art und Weise der Prüfung vorgespannt ist (seine etwas zu betrügen, da es die Antworten auf die Fragen sehen). So sind wir in der Regel in immer eine realistischere Schätzung der Modellfehler auf unsichtbare Daten interessiert. Kreuzvalidierung Eine solche Technik ist, in dem es die Daten in 10 partitionieren geschichteten falten, auf einer der Test Durchführung falten, während des Trainings auf der anderen neun schließlich meldet es die durchschnittliche Genauigkeit über die zehn Läufe.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top