Quand supprimer un terme d'un modèle de régression?

20

Quelqu'un pourrait-il indiquer si ce qui suit est logique:

J'ai affaire à un modèle linéaire ordinaire avec 4 prédicteurs. Je suis dans deux esprits s'il faut abandonner le terme le moins significatif. Sa valeur est un peu plus de 0,05. J'ai plaidé en faveur de l'abandon dans ces conditions: multiplier l'estimation de ce terme par (par exemple) la plage interquartile des données de l'échantillon pour cette variable, donne une certaine signification à l'effet clinique que le maintien de ce terme a sur le modèle global . Étant donné que ce nombre est très faible, approximativement égal à la plage de valeurs intra-journalière typique que la variable peut prendre lors de la mesure dans un contexte clinique, je le considère comme non cliniquement significatif et pourrait donc être abandonné pour donner un modèle plus parcimonieux, même bien que la baisse réduise un peu le ajusté .pR2

P Sellaz
la source
1
pourquoi cherchez-vous un modèle plus parcimonieux?
Michael Bishop,
3
La parcimonie n'est-elle pas une bonne chose en soi? La façon dont je le vois, un modèle avec des variables qui ajoutent peu ou pas de pouvoir explicatif au sens clinique, est pire qu'un modèle plus petit sans ces variables, même si ces variables sont significatives au sens statistique
P Sellaz
J'ai décidé d'écrire une réponse: stats.stackexchange.com/questions/17624/… . Mais en bref, non, je ne pense pas que la parcimonie soit une bonne chose en soi. Il est parfois utile pour des raisons spécifiques.
Michael Bishop,
1
Je suis d'accord avec Michael. Il est préférable d'inclure des variables sans capacité explicative apparente si elles avaient la chance d'être «significatives»; vous avez déjà dépensé ces degrés de liberté.
Frank Harrell
Gardez à l'esprit que les prédicteurs qui ne sont pas des régresseurs significatifs peuvent toujours contribuer des montants non nuls à la variance expliquée dans le cas des régresseurs corrélés - en influençant d'autres régresseurs significatifs. Surtout avec seulement quatre prédicteurs, si les régresseurs sont corrélés, je plaiderais en faveur du maintien de celui non significatif dans le modèle.
Torvon

Réponses:

18

Je n'ai jamais compris le souhait de parcimonie. La recherche de parcimonie détruit tous les aspects de l'inférence statistique (biais des coefficients de régression, erreurs standard, intervalles de confiance, valeurs de P). Une bonne raison de conserver des variables est que cela préserve la précision des intervalles de confiance et d'autres quantités. Pensez-y de cette façon: il n'y a eu que deux estimateurs non biaisés de la variance résiduelle dans la régression multiple ordinaire: (1) l'estimation à partir du (grand) modèle prédéfini, et (2) l'estimation à partir d'un modèle réduit remplaçant les degrés généralisés de liberté (GDF) pour les degrés de liberté de régression apparents (réduits). GDF sera beaucoup plus proche du nombre de paramètres candidats que du nombre de paramètres finaux "significatifs".

Voici une autre façon de penser. Supposons que vous effectuiez une ANOVA pour comparer 5 traitements, obtenant un test F de 4 df. Ensuite, pour une raison quelconque, vous examinez les différences par paire entre les traitements à l'aide de tests t et décidez de combiner ou de supprimer certains des traitements (cela revient à faire une sélection par étapes en utilisant P, AIC, BIC, Cp sur les 4 variables muettes). Le test F résultant avec 1, 2 ou 3 df aura une erreur de type I gonflée. Le test F original avec 4 df contenait un ajustement de multiplicité parfait.

Frank Harrell
la source
3
+1 La parcimonie est quelque chose qui n'a souvent de sens que dans des contextes très spécifiques. Il n'y a aucune raison de jouer au jeu du biais par rapport à la précision si vous avez suffisamment de précision pour faire les deux.
Fomite
2
+1 pour une excellente réponse. Mais que se passe-t-il si vous avez une multicolinéarité et que la suppression d'une variable la réduit? (Ce n'est pas le cas dans la question d'origine, mais souvent dans d'autres données). Le modèle résultant n'est-il pas souvent supérieur de toutes sortes de façons (réduire la variance des estimateurs, les signes de coefficients sont plus susceptibles de refléter la théorie sous-jacente, etc.)? Si vous utilisez toujours les degrés de liberté corrects (modèle d'origine).
Peter Ellis
4
Il est toujours préférable d'inclure les deux variables. Le seul prix que vous payez est l'augmentation de l'erreur-type dans l'estimation d'un des effets de la variable ajustée pour l'autre. Les tests conjoints des deux variables colinéaires sont très puissants car ils combinent des forces plutôt que de se faire concurrence. De plus, si vous souhaitez supprimer une variable, les données sont incapables de vous dire laquelle supprimer.
Frank Harrell
17

Ces réponses sur la sélection des variables supposent toutes que le coût de l'observation des variables est de 0.

Et ce n'est pas vrai.

Bien que la question de la sélection des variables pour un modèle donné puisse impliquer ou non la sélection, les implications pour le comportement futur impliquent la sélection.

Considérez le problème de prédire quel joueur de ligne collégial fera le mieux dans la NFL. Vous êtes éclaireur. Vous devez considérer quelles qualités des joueurs de ligne actuels de la NFL sont les plus prédictifs de leur succès. Vous mesurez 500 quantités et commencez la tâche de sélection des quantités qui seront nécessaires à l'avenir.

Que devrais tu faire? Devriez-vous conserver les 500? Faut-il éliminer certains (signe astrologique, jour de la semaine né)?

Il s'agit d'une question importante et non académique. L'observation des données a un coût et le cadre de rentabilité suggère que certaines variables NE DOIVENT PAS être observées à l'avenir, car leur valeur est faible.

Paul A. Thompson
la source
4
+1: un point important et intéressant. Elle révèle également que la question est incomplète, car elle n'indique pas la finalité du modèle. (Les coûts seraient moins pertinents pour un modèle scientifique qui cherche à construire une théorie explicative mais viendraient au premier plan dans un modèle prédictif destiné à une utilisation répétée.)
whuber
6

Il existe au moins deux autres raisons possibles pour conserver une variable: 1) Elle affecte les paramètres des AUTRES variables. 2) Le fait qu'il soit petit est cliniquement intéressant en soi

Pour voir environ 1, vous pouvez regarder les valeurs prévues pour chaque personne d'un modèle avec et sans la variable dans le modèle. Je suggère de faire un nuage de points de ces deux ensembles de valeurs. S'il n'y a pas de grandes différences, c'est un argument contre cette raison

Pour 2, réfléchissez à la raison pour laquelle vous aviez cette variable dans la liste des variables possibles. Est-ce basé sur la théorie? D'autres recherches ont-elles trouvé une grande taille d'effet?

Peter Flom - Réintégrer Monica
la source
Il y a très peu de colinéarité à proprement parler, donc la suppression de cette variable fait très peu de différence pour les autres. C'est un point intéressant sur le fait qu'il est cliniquement intéressant s'il était petit. Les données proviennent d'une enquête exploratoire où, à ce stade du moins, il n'y a aucune raison de s'attendre à ce qu'une variable soit plus significative que n'importe quelle autre. Cependant, il y a une fluctuation intrajournalière dans cette variable, donc à première vue, si un effet était de taille similaire à cette fluctuation, il ne me semble pas très significatif sur le plan clinique.
P Sellaz
OK, cela ressemble à un bon candidat pour la suppression.
Peter Flom - Réintègre Monica
@P Sellaz - si "les données proviennent d'une enquête exploratoire", cela signifie-t-il que les participants se sont sélectionnés eux-mêmes? Je trouve que les commentaires de @Frank Harrell doivent être pris en compte, mais le souci de l'exactitude stricte des valeurs de p, des intervalles de confiance, etc. devient théorique si l'échantillon a été auto-sélectionné.
rolando2
Je pense que cela ne devient théorique que si vous ne les utilisez pas.
Frank Harrell
@FrankHarrel - veuillez clarifier: "eux" =?
rolando2
6

Le conseil le plus courant de nos jours est d'obtenir l'AIC des deux modèles et de prendre celui avec l'AIC inférieur. Donc, si votre modèle complet a un AIC de -20 et que le modèle sans le prédicteur le plus faible a un AIC> -20, vous conservez le modèle complet. Certains pourraient soutenir que si la différence <3, vous gardez la plus simple. Je préfère le conseil que vous pouvez utiliser le BIC pour briser les «liens» lorsque les AIC sont à moins de 3 l'un de l'autre.

Si vous utilisez R alors la commande pour obtenir l'AIC est ... AIC.

J'ai un manuel sur la modélisation ici du début des années 90 suggérant que vous supprimez tous vos prédicteurs qui ne sont pas significatifs. Cependant, cela signifie vraiment que vous chuterez indépendamment de la complexité que le prédicteur ajoute ou soustrait du modèle. C'est aussi uniquement pour l'ANOVA où la signification concerne la variabilité expliquée plutôt que l'ampleur de la pente à la lumière de ce que d'autres choses ont été expliquées. Les conseils plus modernes d'utilisation de l'AIC tiennent compte de ces facteurs. Il y a toutes sortes de raisons pour lesquelles le prédicteur non significatif devrait être inclus même s'il n'est pas significatif. Par exemple, il peut y avoir des problèmes de corrélation avec d'autres prédicteurs, il peut s'agir d'un prédicteur relativement simple. Si vous voulez le conseil le plus simple, allez avec AIC et utilisez BIC pour rompre les liens et utilisez une différence de 3 comme fenêtre d'égalité.

John
la source
Plus petit est meilleur dans la représentation R, oui?
Aaron - Rétablir Monica
Merci pour votre réponse. J'ai trouvé que la différence d'AIC entre les deux modèles n'est que de 2.
P Sellaz
Le modèle plus petit a un AIC et BIC AIC légèrement plus grand: AIC grand-petit = -2 BIC: BIC grand-petit- 7.8
P Sellaz
Aaron .. oups ... plus bas, fixe ...
John
1
Juste pour clarifier quelque chose, ce terme supplémentaire n'est qu'une autre covariable et il y a très peu de colinéarité.
P Sellaz
4

Pourquoi utilisez-vous ce modèle? La parcimonie est-elle un objectif important?

Des modèles plus parcimonieux sont préférés dans certaines situations, mais je ne dirais pas que la parcimonie est une bonne chose en soi. Les modèles parcimonieux peuvent être compris et communiqués plus facilement, et la parcimonie peut aider à se prémunir contre un ajustement excessif, mais souvent ces problèmes ne sont pas des préoccupations majeures ou peuvent être traités d'une autre manière.

L'approche de la direction opposée, y compris un terme supplémentaire dans une équation de régression présente certains avantages, même dans les situations où le terme supplémentaire lui-même n'est pas intéressant et n'améliore pas le modèle s'adapte beaucoup ... vous ne pouvez pas penser qu'il est une variable importante à contrôler, mais d'autres le pourraient. Bien sûr, il existe d'autres raisons de fond très importantes pour exclure une variable, par exemple, elle peut être causée par le résultat.

Michael Bishop
la source
3

D'après votre formulation, il semble que vous ayez tendance à laisser tomber le dernier prédicteur car sa valeur prédictive est faible; un changement substantiel sur ce prédicteur n'impliquerait pas un changement substantiel sur la variable de réponse. Si tel est le cas, j'aime ce critère pour inclure / supprimer le prédicteur. Il est plus ancré dans la réalité pratique que l'AIC ou le BIC ne peut l'être, et plus explicable à votre public pour cette recherche.

rolando2
la source
Oui, c'est précisément ce que je voulais dire.
P Sellaz