À quoi servent les classements d'importance variable?

25

Je suis devenu un peu nihiliste en ce qui concerne les classements d' importance variable (dans le contexte de modèles multivariés de toutes sortes).

Souvent, au cours de mon travail, on me demande soit d'aider une autre équipe à produire un classement d'importance variable, soit de produire un classement d'importance variable à partir de mon propre travail. En réponse à ces demandes, je pose les questions suivantes

Pour quoi aimeriez-vous ce classement d'importance variable? Qu'espérez-vous en tirer? Quel genre de décisions aimeriez-vous prendre en l'utilisant?

Les réponses que je reçois tombent presque toujours dans l'une des deux catégories

  • Je voudrais connaître l'importance des différentes variables de mon modèle pour prédire la réponse.
  • Je voudrais l'utiliser pour la sélection des fonctionnalités, en supprimant les variables de faible importance.

La première réponse est tautologique (je souhaiterais un classement d'importance variable car je souhaiterais un classement d'importance variable). Je dois supposer que ces classements répondent à un besoin psychologique lors de la consommation de la sortie d'un modèle multivarié. J'ai du mal à comprendre cela, car le classement individuel des variables «importance» semble implicitement rejeter la nature multidimensionnelle du modèle en question.

La deuxième réponse se réduit essentiellement à une version informelle de la sélection à l'envers , dont les péchés statistiques sont bien documentés dans d'autres parties de CrossValidated.

Je lutte également avec la nature mal définie des classements d'importance. Il semble y avoir peu d'accord sur le concept sous-jacent que le classement devrait mesurer, ce qui leur donne une saveur très ponctuelle. Il existe de nombreuses façons d'attribuer un score ou un classement d'importance, et ils souffrent généralement d'inconvénients et de mises en garde:

  • Ils peuvent être fortement dépendants de l'algorithme, comme dans les classements d'importance dans les forêts aléatoires et les gbms.
  • Ils peuvent avoir une variance extrêmement élevée, changeant radicalement avec des perturbations des données sous-jacentes.
  • Ils peuvent souffrir grandement de la corrélation dans les prédicteurs d'entrée.

Donc, avec tout cela dit, ma question est, quelles sont les utilisations statistiquement valides des classements d'importance variable, ou, quel est un argument convaincant (soit pour un statisticien ou un profane) pour la futilité d'un tel désir? Je m'intéresse à la fois aux arguments théoriques généraux et aux études de cas, selon ce qui serait le plus efficace pour faire valoir ce point.

Matthew Drury
la source
1
Utiliser une importance variable (à partir d'une procédure raisonnable) pour filtrer les prédicteurs faibles ne semble pas être une idée terrible. Pouvez-vous expliquer pourquoi vous pensez que c'est mauvais?
dsaxton
3
Je suppose qu'en général, je pense que de nombreux processus statistiques ne sont pas dominés par des prédicteurs "importants", par l'accumulation de nombreux petits effets. Par exemple, le pouvoir de la régression des crêtes pourrait s'expliquer par la reconnaissance explicite de cette structure. Autrement dit, quelle est la raison pour laquelle nous devrions croire, a priori, au concept de "prédicteur faible", et pourquoi les filtrer? Et pourquoi devrions-nous utiliser une telle procédure informelle pour le faire quand il glmnetest disponible?
Matthew Drury
2
Dans tous les domaines où nous ne sommes pas experts, nous voulons savoir ce qui est important de s'inquiéter! De nombreux livres sur les affaires et la gestion semblent expliquer en détail que vous identifiez les problèmes importants et que vous vous concentrez sur eux (oui, en effet). Je soupçonne que la mauvaise communication commence généralement par des personnes non statistiques supposant qu'il existe un moyen de quantifier l'importance et que le travail des statistiques est de savoir comment le faire et de ne pas les inquiéter de la difficulté. Je ne sais pas comment être moins général, mais une partie de la discussion ici semble manquer des points clés de votre question.
Nick Cox

Réponses:

8

J'ai soutenu que l'importance variable est un concept glissant , comme le pose cette question. Le premier type de réponse tautologique que vous obtenez à votre question et les espoirs irréalistes de ceux qui interpréteraient les résultats d'importance variable en termes de causalité, comme l'a noté @DexGroves, nécessitent peu d'élaboration.

Pour être juste envers ceux qui utiliseraient la sélection en amont, même Frank Harrell le permet dans le cadre d'une stratégie de modélisation. À partir de la page 97 de ses stratégies de modélisation de la régression , 2e édition (une déclaration similaire se trouve à la page 131 des notes de cours associées ):

  1. Faites une sélection de variable descendante descendante limitée si la parcimonie est plus importante que la précision.

Cette utilisation potentielle limitée de la sélection en amont est cependant l'étape 13, la dernière étape avant le modèle final (étape 14). Cela vient bien après les premières étapes cruciales:

  1. Assemblez autant de données pertinentes précises que possible, avec de larges distributions pour les valeurs des prédicteurs ...
  2. Formuler de bonnes hypothèses qui conduisent à la spécification de prédicteurs candidats pertinents et d'interactions possibles ...

D'après mon expérience, les gens veulent souvent contourner l'étape 2 et laisser une procédure automatisée remplacer l'application intelligente des connaissances sur le sujet. Cela peut conduire à une partie de l'accent mis sur l'importance variable.

Le modèle complet de l'étape 14 de Harrell est suivi de 5 autres étapes de validation et d'ajustement, avec une dernière étape:

  1. Développer des simplifications du modèle complet en l'approximant à tous les degrés de précision souhaités.

Comme d'autres réponses l'ont noté, il existe des problèmes d'actionnabilité, de coût et de simplicité qui entrent dans l'application pratique des résultats de la modélisation. Par exemple, si je développe un nouveau biomarqueur du cancer qui améliore le pronostic mais coûte 100 000 $ par test, il pourrait être difficile de convaincre les assureurs ou le gouvernement de payer le test à moins qu'il ne soit spectaculairement utile. Il n'est donc pas déraisonnable pour quelqu'un de vouloir se concentrer sur les variables qui sont "les plus importantes", ou de simplifier un modèle précis en un modèle un peu moins précis mais plus facile ou moins coûteux à mettre en œuvre.

Mais cette sélection de variables et la simplification du modèle devraient être dans un but précis , et je pense que c'est là que la difficulté se pose. Le problème est similaire à l'évaluation des systèmes de classification uniquement sur la base du pourcentage de cas correctement classés. Tout comme différentes erreurs de classification peuvent avoir des coûts différents, différents schémas de simplification des modèles peuvent avoir des coûts différents qui contrebalancent les avantages espérés.

Je pense donc que la question sur laquelle se concentrer en tant qu'analyste est la capacité d'estimer et d'illustrer ces coûts et avantages de manière fiable avec des procédures de modélisation statistique, plutôt que de trop se soucier d'un concept abstrait de validité statistique en soi. Par exemple, les pages 157-8 des notes de classe de Harrell liées ci-dessus ont un exemple d'utilisation du bootstrap pour montrer les caprices du classement des prédicteurs dans les moindres carrés; des résultats similaires peuvent être trouvés pour les ensembles de variables sélectionnés par LASSO.

Si ce type de variabilité dans la sélection des variables ne fait pas obstacle à une application pratique particulière du modèle, c'est OK. Le travail consiste à estimer l'ampleur et le type de problèmes que la simplification entraînera.

EdM
la source
2
Ceci est une excellente réponse @EdM et est tout à fait conforme aux opinions que j'ai développées sur la question. J'aime particulièrement vos deux points: 1) les prédicteurs inacceptables (pour des raisons morales, réglementaires ou commerciales) doivent être éliminés avant la modélisation, 2) la simplification du modèle final doit être effectuée dans un but défini spécifique et a priori. Ce sont essentiellement les points que j'essaie habituellement de décompresser avec les questions à mes partenaires commerciaux.
Matthew Drury
Pr(β0)
Cela dit, je me demande toujours s'il existe un concept sous-jacent que les classements d'importance tentent de saisir, ou s'il ne s'agit que d'attaques ponctuelles contre un problème statistique peu clair.
Matthew Drury
1
@MatthewDrury, Frank Harrell fournit une méthode de principe pour évaluer «l'importance des variables», basée sur la fraction de log-vraisemblance expliquée par chaque variable. Ce n'est pas ce que les individus moins sophistiqués entendent probablement par l'expression. Comme vous, j'ai utilisé la fraction de fois que LASSO choisit chaque prédicteur, parmi plusieurs échantillons de bootstrap, comme la meilleure façon de penser pour illustrer les caprices de la sélection des variables. Cela m'a surtout éloigné de LASSO et vers une régression de crête pour des problèmes à échelle modérée.
EdM
8

C'est complètement anecdotique, mais j'ai trouvé l'importance variable variable utile pour identifier les erreurs ou les faiblesses dans les GBM.

Une importance variable vous donne une sorte d'énorme aperçu en coupe transversale du modèle qui serait difficile à obtenir autrement. Les variables plus élevées dans la liste voient plus d'activité (qu'elles soient ou non plus «importantes» est une autre question). Souvent, un prédicteur qui se comporte mal (par exemple, quelque chose de prospectif ou un facteur de cardinalité élevé) va tirer vers le haut.

S'il y a un grand désaccord entre l'importance variable de l'intuition et l'importance variable GBM, il y a généralement des connaissances précieuses à acquérir ou une erreur à trouver.

J'ajouterais une troisième réponse au "pourquoi me demandez-vous cela?" question, qui est "parce que je veux comprendre ce qui est à l'origine de ma réponse". Eep.

Dex Groves
la source
4

Les classements d'importance variable ont un rôle certain dans le monde des affaires appliqué chaque fois qu'il est nécessaire de prioriser le nombre potentiellement important d'entrées dans un processus, n'importe quel processus. Ces informations fournissent une orientation en termes de stratégie ciblée pour attaquer un problème, en descendant du plus important au moins important, par exemple, la réduction des coûts de processus, étant donné que les variables sont exploitables et non fixes ou des facteurs structurels à l'abri de la manipulation. À la fin de la journée, cela devrait entraîner un test A / B quelconque.

À votre point cependant, Matt, et comme pour tout classement ordinal, les nuances mineures ou les différences entre les variables peuvent être ambiguës ou obscurcies, viciant leur utilité.

Mike Hunter
la source
Je suis entièrement d'accord avec l'utilité du classement des variables dans de nombreux cas commerciaux. Mais ici, le souci de «différents algorithmes donnent des classements différents» reste sans réponse. Avez-vous une suggestion pour y remédier? Voir également ma question ici stats.stackexchange.com/q/251248/71287 et les commentaires ci-dessous.
Aliweb
3
@aliweb La question de la différence n'a pas de solution unique, fixe et unitaire. Ce point est aussi subtil que la distinction entre hiérarchies et hétérarchies où les classements mondiaux se révèlent, en fait, entièrement locaux et transitoires. Les meilleures revues de la littérature sur l'importance relative des variables appartiennent probablement à Ulrike Groemping dont les articles sont assez complets par rapport aux différentes métriques qui existent. De plus, son module et sa méthode R - RELAMPO - sont une approche aussi rigoureuse pour estimer l'importance relative que celle qui existe.
Mike Hunter
3

Je suis totalement d'accord avec vous du point de vue théorique. Mais d'un point de vue pratique, l'importance variable est très utile.

Prenons un exemple dans lequel une compagnie d'assurance souhaite réduire le nombre de questions dans un questionnaire quantifiant le risque de ses clients. Plus le questionnaire est compliqué, moins les clients achètent leurs produits. Pour cette raison, ils souhaitent réduire les questions les moins utiles lors du maintien du niveau de quantification des risques. La solution consiste souvent à utiliser une importance variable pour déterminer les questions à supprimer du questionnaire (et avoir "plus ou moins" la même prédiction sur le profil de risque du prospect).

Metariat
la source
Je suis entièrement d'accord avec l'utilité du classement des variables dans de nombreux cas commerciaux. Mais ici, le souci de «différents algorithmes donnent des classements différents» reste sans réponse. Avez-vous une suggestion pour y remédier? Voir également ma question ici stats.stackexchange.com/q/251248/71287 et les commentaires ci-dessous.
Aliweb
@aliweb: Je pense que Matthew vous a déjà fourni une excellente réponse à votre question.
Metariat