J'ai couru un modèle xgboost. Je ne sais pas exactement comment interpréter le résultat de xgb.importance
.
Quelle est la signification de gain, couverture et fréquence et comment les interprète-t-on?
De plus, que signifient Split, RealCover et RealCover%? J'ai quelques paramètres supplémentaires ici
Existe-t-il d'autres paramètres pouvant en dire plus sur l'importance des fonctionnalités?
D'après la documentation R, je comprends un peu que le gain est quelque chose de similaire au gain d'information et que la fréquence correspond au nombre de fois qu'une fonctionnalité est utilisée dans tous les arbres. Je n'ai aucune idée de ce qu'est la couverture.
J'ai exécuté l'exemple de code donné dans le lien (et j'ai également essayé de faire de même pour le problème sur lequel je travaille), mais la définition de fractionnement indiquée ne correspond pas aux nombres que j'ai calculés.
importance_matrix
Sortie:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05
la source
Merci Sandeep pour votre réponse détaillée. Je voudrais corriger que la couverture est calculée pour toutes les divisions et pas seulement pour les nœuds terminaux.
Passons en exemple simple avec les données fournies par la bibliothèque xgboost.
Sortie -
Essayons de calculer la couverture d'odeur = aucune dans la matrice d'importance (0.495768965) à partir du vidage d'arbres.
La couverture de chaque division où odeur = aucune est utilisée est 1628.2500 au ID de nœud 0-0 et 765.9390 au ID de nœud 1-1.
Couverture totale de tous les fractionnements (somme de la colonne de couverture dans le vidage d'arbre) = 1628,2500 * 2 + 786,3720 * 2
Couverture d'odeur = aucune dans la matrice d'importance = (1628.2500 + 765.9390) / (1628.2500 * 2 + 786.3720 * 2)
Nous sommes donc sûrs que la couverture est calculée sur toutes les divisions!
la source