J'ai un modèle de régression linéaire avec l'échantillon et les observations variables et je veux savoir:
- Si une variable spécifique est suffisamment significative pour rester incluse dans le modèle.
- Si une autre variable (avec observations) doit être incluse dans le modèle.
Quelles statistiques peuvent m'aider? Comment les obtenir le plus efficacement possible?
la source
J'appuie le commentaire de Rob. Une alternative de plus en plus préférée consiste à inclure toutes vos variables et à les réduire à 0. Voir Tibshirani, R. (1996). Régression retrait et de la sélection via le lasso.
http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf
la source
Pour la partie 1, vous cherchez le test F . Calculez votre somme résiduelle de carrés de chaque ajustement de modèle et calculez une statistique F, que vous pouvez utiliser pour trouver des valeurs p à partir d'une distribution F ou d'une autre distribution nulle que vous générez vous-même.
la source
Un autre vote pour la réponse de Rob.
Il existe également des idées intéressantes dans la littérature sur "l'importance relative". Ce travail développe des méthodes qui cherchent à déterminer l'importance accordée à chacun d'un certain nombre de prédicteurs candidats. Il existe des méthodes bayésiennes et fréquentistes. Vérifiez le package "relaimpo" dans R pour les citations et le code.
la source
J'aime aussi la réponse de Rob. Et, s'il vous arrive d'utiliser SAS plutôt que R, vous pouvez utiliser PROC GLMSELECT pour les modèles qui seraient réalisés avec PROC GLM, bien que cela fonctionne bien pour certains autres modèles également. Voir
Flom et Cassell "Arrêter pas à pas: pourquoi les méthodes de sélection pas à pas sont mauvaises et ce que vous devez utiliser" présentés à divers groupes, plus récemment, NESUG 2009
la source