Je suis devenu un peu nihiliste en ce qui concerne les classements d' importance variable (dans le contexte de modèles multivariés de toutes sortes).
Souvent, au cours de mon travail, on me demande soit d'aider une autre équipe à produire un classement d'importance variable, soit de produire un classement d'importance variable à partir de mon propre travail. En réponse à ces demandes, je pose les questions suivantes
Pour quoi aimeriez-vous ce classement d'importance variable? Qu'espérez-vous en tirer? Quel genre de décisions aimeriez-vous prendre en l'utilisant?
Les réponses que je reçois tombent presque toujours dans l'une des deux catégories
- Je voudrais connaître l'importance des différentes variables de mon modèle pour prédire la réponse.
- Je voudrais l'utiliser pour la sélection des fonctionnalités, en supprimant les variables de faible importance.
La première réponse est tautologique (je souhaiterais un classement d'importance variable car je souhaiterais un classement d'importance variable). Je dois supposer que ces classements répondent à un besoin psychologique lors de la consommation de la sortie d'un modèle multivarié. J'ai du mal à comprendre cela, car le classement individuel des variables «importance» semble implicitement rejeter la nature multidimensionnelle du modèle en question.
La deuxième réponse se réduit essentiellement à une version informelle de la sélection à l'envers , dont les péchés statistiques sont bien documentés dans d'autres parties de CrossValidated.
Je lutte également avec la nature mal définie des classements d'importance. Il semble y avoir peu d'accord sur le concept sous-jacent que le classement devrait mesurer, ce qui leur donne une saveur très ponctuelle. Il existe de nombreuses façons d'attribuer un score ou un classement d'importance, et ils souffrent généralement d'inconvénients et de mises en garde:
- Ils peuvent être fortement dépendants de l'algorithme, comme dans les classements d'importance dans les forêts aléatoires et les gbms.
- Ils peuvent avoir une variance extrêmement élevée, changeant radicalement avec des perturbations des données sous-jacentes.
- Ils peuvent souffrir grandement de la corrélation dans les prédicteurs d'entrée.
Donc, avec tout cela dit, ma question est, quelles sont les utilisations statistiquement valides des classements d'importance variable, ou, quel est un argument convaincant (soit pour un statisticien ou un profane) pour la futilité d'un tel désir? Je m'intéresse à la fois aux arguments théoriques généraux et aux études de cas, selon ce qui serait le plus efficace pour faire valoir ce point.
la source
glmnet
est disponible?Réponses:
J'ai soutenu que l'importance variable est un concept glissant , comme le pose cette question. Le premier type de réponse tautologique que vous obtenez à votre question et les espoirs irréalistes de ceux qui interpréteraient les résultats d'importance variable en termes de causalité, comme l'a noté @DexGroves, nécessitent peu d'élaboration.
Pour être juste envers ceux qui utiliseraient la sélection en amont, même Frank Harrell le permet dans le cadre d'une stratégie de modélisation. À partir de la page 97 de ses stratégies de modélisation de la régression , 2e édition (une déclaration similaire se trouve à la page 131 des notes de cours associées ):
Cette utilisation potentielle limitée de la sélection en amont est cependant l'étape 13, la dernière étape avant le modèle final (étape 14). Cela vient bien après les premières étapes cruciales:
D'après mon expérience, les gens veulent souvent contourner l'étape 2 et laisser une procédure automatisée remplacer l'application intelligente des connaissances sur le sujet. Cela peut conduire à une partie de l'accent mis sur l'importance variable.
Le modèle complet de l'étape 14 de Harrell est suivi de 5 autres étapes de validation et d'ajustement, avec une dernière étape:
Comme d'autres réponses l'ont noté, il existe des problèmes d'actionnabilité, de coût et de simplicité qui entrent dans l'application pratique des résultats de la modélisation. Par exemple, si je développe un nouveau biomarqueur du cancer qui améliore le pronostic mais coûte 100 000 $ par test, il pourrait être difficile de convaincre les assureurs ou le gouvernement de payer le test à moins qu'il ne soit spectaculairement utile. Il n'est donc pas déraisonnable pour quelqu'un de vouloir se concentrer sur les variables qui sont "les plus importantes", ou de simplifier un modèle précis en un modèle un peu moins précis mais plus facile ou moins coûteux à mettre en œuvre.
Mais cette sélection de variables et la simplification du modèle devraient être dans un but précis , et je pense que c'est là que la difficulté se pose. Le problème est similaire à l'évaluation des systèmes de classification uniquement sur la base du pourcentage de cas correctement classés. Tout comme différentes erreurs de classification peuvent avoir des coûts différents, différents schémas de simplification des modèles peuvent avoir des coûts différents qui contrebalancent les avantages espérés.
Je pense donc que la question sur laquelle se concentrer en tant qu'analyste est la capacité d'estimer et d'illustrer ces coûts et avantages de manière fiable avec des procédures de modélisation statistique, plutôt que de trop se soucier d'un concept abstrait de validité statistique en soi. Par exemple, les pages 157-8 des notes de classe de Harrell liées ci-dessus ont un exemple d'utilisation du bootstrap pour montrer les caprices du classement des prédicteurs dans les moindres carrés; des résultats similaires peuvent être trouvés pour les ensembles de variables sélectionnés par LASSO.
Si ce type de variabilité dans la sélection des variables ne fait pas obstacle à une application pratique particulière du modèle, c'est OK. Le travail consiste à estimer l'ampleur et le type de problèmes que la simplification entraînera.
la source
C'est complètement anecdotique, mais j'ai trouvé l'importance variable variable utile pour identifier les erreurs ou les faiblesses dans les GBM.
Une importance variable vous donne une sorte d'énorme aperçu en coupe transversale du modèle qui serait difficile à obtenir autrement. Les variables plus élevées dans la liste voient plus d'activité (qu'elles soient ou non plus «importantes» est une autre question). Souvent, un prédicteur qui se comporte mal (par exemple, quelque chose de prospectif ou un facteur de cardinalité élevé) va tirer vers le haut.
S'il y a un grand désaccord entre l'importance variable de l'intuition et l'importance variable GBM, il y a généralement des connaissances précieuses à acquérir ou une erreur à trouver.
J'ajouterais une troisième réponse au "pourquoi me demandez-vous cela?" question, qui est "parce que je veux comprendre ce qui est à l'origine de ma réponse". Eep.
la source
Les classements d'importance variable ont un rôle certain dans le monde des affaires appliqué chaque fois qu'il est nécessaire de prioriser le nombre potentiellement important d'entrées dans un processus, n'importe quel processus. Ces informations fournissent une orientation en termes de stratégie ciblée pour attaquer un problème, en descendant du plus important au moins important, par exemple, la réduction des coûts de processus, étant donné que les variables sont exploitables et non fixes ou des facteurs structurels à l'abri de la manipulation. À la fin de la journée, cela devrait entraîner un test A / B quelconque.
À votre point cependant, Matt, et comme pour tout classement ordinal, les nuances mineures ou les différences entre les variables peuvent être ambiguës ou obscurcies, viciant leur utilité.
la source
Je suis totalement d'accord avec vous du point de vue théorique. Mais d'un point de vue pratique, l'importance variable est très utile.
Prenons un exemple dans lequel une compagnie d'assurance souhaite réduire le nombre de questions dans un questionnaire quantifiant le risque de ses clients. Plus le questionnaire est compliqué, moins les clients achètent leurs produits. Pour cette raison, ils souhaitent réduire les questions les moins utiles lors du maintien du niveau de quantification des risques. La solution consiste souvent à utiliser une importance variable pour déterminer les questions à supprimer du questionnaire (et avoir "plus ou moins" la même prédiction sur le profil de risque du prospect).
la source