Pourquoi nous utilisons gain d'information sur la précision comme critère de séparation dans l'arbre de décision?

https://datascience.stackexchange.com/questions/14433

16-10-2019
|

Question

Dans classificateur arbre de décision la plupart des algorithmes utilisent Gain d'information comme critère spiting. Nous sélectionnons la fonction avec un gain maximum d'information à partager sur.

Je pense que l'utilisation de précision au lieu de gain d'information est plus simple approche. Y at-il un scénario où la précision ne fonctionne pas et le gain d'information fait?

Quelqu'un peut-il expliquer ce que sont les avantages de l'utilisation de l'information sur le gain de précision comme critère de séparation?

La solution

Les arbres de décision sont généralement sujettes à surajustement et la précision ne généralise pas bien aux données invisibles. L'un des avantages de gain d'information est que - en raison du facteur $ de log * (p) $ dans la définition entropie - avec un petit leafs nombre de cas sont attribués moins de poids ($ lim_ {p \ rightarrow 0 ^ {+ }} p * log (p) = 0 $) et elle favorise la division des données en groupes homogènes, mais plus grandes. Cette approche est généralement plus stable et choisit également les caractéristiques les plus percutants près de la racine de l'arbre.

EDIT: La précision est généralement problématique avec des données non équilibrées. Considérez cet exemple de jouet:

Weather Wind    Outcome
Sunny   Weak    YES
Sunny   Weak    YES
Rainy   Weak    YES
Cloudy  Medium  YES
Rainy   Medium  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO

Météo et vent deux produits seulement une mauvaise étiquette ont donc la même précision de 16/17. Toutefois, compte tenu de ces données, nous supposons que les vents faibles (75% de OUI) sont plus prédictive d'un résultat positif que temps ensoleillé (50% OUI). Autrement dit, le vent nous apprend plus sur les résultats. Comme il n'y a que quelques points de données pour des résultats positifs, nous privilégions le vent sur la météo, parce que le vent est plus prédictif sur l'ensemble des étiquettes plus petites que nous espérons pour nous donner une règle qui est plus robuste aux nouvelles données.

L'entropie du résultat est $ -4/17 * log_2 (4/17) -14/17 * log_2 (14/17)) = 0,72 $. L'entropie pour le temps et le résultat est 14/17 $ * (- 1/14 * log_2 (1/14) -13/14 * log_2 (13/14)) = 0,31 $, ce qui conduit à un gain d'information de 0,41 $ $. De même, le vent donne un gain d'information plus de 0,6 $ $.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange