Une variable est-elle significative dans un modèle de régression linéaire?

9

J'ai un modèle de régression linéaire avec l'échantillon et les observations variables et je veux savoir:

  1. Si une variable spécifique est suffisamment significative pour rester incluse dans le modèle.
  2. Si une autre variable (avec observations) doit être incluse dans le modèle.

Quelles statistiques peuvent m'aider? Comment les obtenir le plus efficacement possible?

Wilhelm
la source

Réponses:

26

La signification statistique n'est généralement pas une bonne base pour déterminer si une variable doit être incluse dans un modèle. Les tests statistiques ont été conçus pour tester des hypothèses, pas pour sélectionner des variables. Je sais que de nombreux manuels discutent de la sélection des variables à l'aide de tests statistiques, mais c'est généralement une mauvaise approche. Voir le livre de Harrell Regression Modeling Strategies pour certaines des raisons pour lesquelles. De nos jours, la sélection variable basée sur l'AIC (ou quelque chose de similaire) est généralement préférée.

Rob Hyndman
la source
En fait, au meilleur de ma mémoire, Harrell décourage fortement l'utilisation de l'AIC. Je suppose que la validation croisée serait probablement la méthode la plus sûre.
Tal Galili
1
AIC est asymptotiquement équivalent à CV. Voir les réponses à stats.stackexchange.com/questions/577/… . J'ai vérifié Harrell avant d'écrire cette réponse, et je n'ai vu aucun découragement de l'AIC. Il met en garde contre les tests de signification après sélection des variables, avec l'AIC ou toute autre méthode.
Rob Hyndman
@Tal: Peut-être à partir d'un de ses papiers plutôt que du livre RMS, je me souviens que Harrell s'était opposé à l'utilisation de l'AIC pour simplement choisir parmi un groupe de nombreux modèles. Je pense que son point était que vous devez ajouter une variable à la fois et comparer méthodiquement deux modèles ou utiliser une stratégie similaire. (Pour être clair, cela correspond à la réponse de Rob.)
ars
En faisant une recherche rapide, j'ai trouvé Harrell qui écrivait ce qui suit: «Méfiez-vous de faire la sélection de modèle sur la base des valeurs P, du carré R, du carré R partiel, de l'AIC, du BIC, des coefficients de régression ou du Cp de Mallows». Il a écrit que le 14/12/08, sur une liste de diffusion intitulée [R] Obtention de valeurs p pour les coefficients de la fonction LRM (conception du package) - texte en clair. Je suppose que j'ai mal compris son sens.
Tal Galili
2
@Tal, @Rob: Dans ce fil, il dit "Assurez-vous d'utiliser le principe de la hiérarchie". Peut-être d'intérêt, cette discussion de medstats (défilement vers le bas pour la réponse de Harrell): groups.google.com/group/medstats/browse_thread/thread/...
ars
4

J'appuie le commentaire de Rob. Une alternative de plus en plus préférée consiste à inclure toutes vos variables et à les réduire à 0. Voir Tibshirani, R. (1996). Régression retrait et de la sélection via le lasso.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

user603
la source
1
Existe-t-il un moyen de quantifier ce qui est "de plus en plus préféré" de nos jours?
Tal Galili
Je pense qu'il est reconnu scientifiquement plus correct dans de nombreux domaines dans le sens où l'approche de rétrécissement est plus utilisée dans les documents statistiques récents que l'approche * .IC. Cela montre un certain consensus théorique, du moins tacite.
user603
1
2p
3

Pour la partie 1, vous cherchez le test F . Calculez votre somme résiduelle de carrés de chaque ajustement de modèle et calculez une statistique F, que vous pouvez utiliser pour trouver des valeurs p à partir d'une distribution F ou d'une autre distribution nulle que vous générez vous-même.

Eric Suh
la source
1

Un autre vote pour la réponse de Rob.

Il existe également des idées intéressantes dans la littérature sur "l'importance relative". Ce travail développe des méthodes qui cherchent à déterminer l'importance accordée à chacun d'un certain nombre de prédicteurs candidats. Il existe des méthodes bayésiennes et fréquentistes. Vérifiez le package "relaimpo" dans R pour les citations et le code.

Andrew Robinson
la source
1

J'aime aussi la réponse de Rob. Et, s'il vous arrive d'utiliser SAS plutôt que R, vous pouvez utiliser PROC GLMSELECT pour les modèles qui seraient réalisés avec PROC GLM, bien que cela fonctionne bien pour certains autres modèles également. Voir

Flom et Cassell "Arrêter pas à pas: pourquoi les méthodes de sélection pas à pas sont mauvaises et ce que vous devez utiliser" présentés à divers groupes, plus récemment, NESUG 2009

Peter Flom
la source