J'ai un modèle linéaire classique, avec 5 régresseurs possibles. Ils ne sont pas corrélés entre eux et ont une corrélation assez faible avec la réponse. Je suis arrivé à un modèle où 3 des régresseurs ont des coefficients significatifs pour leur statistique t (p <0,05). L'ajout de l'une des deux variables restantes ou des deux donne des valeurs de p> 0,05 pour la statistique t, pour les variables ajoutées. Cela m'amène à croire que le modèle à 3 variables est "le meilleur".
Cependant, en utilisant la commande anova (a, b) dans R où a est le modèle à 3 variables et b est le modèle complet, la valeur p pour la statistique F est <0,05, ce qui me dit de préférer le modèle complet à la variable 3 modèle. Comment concilier ces contradictions apparentes?
Merci PS Edit: quelques informations supplémentaires. Ce sont des devoirs donc je ne publierai pas de détails, mais on ne nous donne pas de détails sur ce que les régresseurs représentent - ils sont juste numérotés de 1 à 5. On nous demande de "dériver un modèle approprié, en donnant une justification".
la source
Réponses:
Le problème a commencé lorsque vous avez cherché un modèle réduit et utilisé les données plutôt que la connaissance du sujet pour choisir les prédicteurs. La sélection de variables par étapes sans rétrécissement simultané pour pénaliser la sélection de variables, bien que souvent utilisée, n'est pas une approche valide. Beaucoup a été écrit à ce sujet. Il n'y a aucune raison de croire que le modèle à 3 variables est "le meilleur" et il n'y a aucune raison de ne pas utiliser la liste originale de prédicteurs prédéfinis. Les valeurs P calculées après avoir utilisé des valeurs P pour sélectionner des variables ne sont pas valides. Cela a été appelé "double dip" dans la littérature d'imagerie fonctionnelle.
Voici une analogie. Supposons que l'on souhaite comparer 6 traitements, mais utilise des tests t par paire pour choisir les traitements «différents», ce qui se traduit par un ensemble réduit de 4 traitements. L'analyste teste ensuite une différence globale avec 3 degrés de liberté. Ce test F aura une erreur de type I gonflée. Le test F d'origine avec 5 df est tout à fait valide.
Voir http://www.stata.com/support/faqs/stat/stepwise.html et stepwise-regression pour plus d'informations.
la source
Une réponse serait "cela ne peut pas être fait sans connaissance du sujet". Malheureusement, cela vous donnerait probablement un F sur votre mission. Sauf si j'étais ton professeur. Ensuite, il obtiendrait un A.
Ensuite, il y a
Eh bien, si vous SAVEZ cela (c'est-à-dire, votre instructeur vous l'a dit) et si par "indépendant" vous voulez dire "sans rapport avec le DV", alors vous savez que le meilleur modèle est celui sans prédicteurs, et votre intuition est correcte.
la source
Vous pouvez essayer de faire une validation croisée. Choisissez un sous-ensemble de votre échantillon, trouvez le «meilleur» modèle pour ce sous-ensemble en utilisant des tests F ou t, puis appliquez-le à l'ensemble de données (la validation croisée complète peut devenir plus compliquée que cela, mais ce serait un bon début). Cela aide à atténuer certains des problèmes de test par étapes.
Voir A Note on Screening Regression Equations de David Freedman pour une petite simulation mignonne de cette idée.
la source
J'aime vraiment la méthode utilisée dans le
caret
package: élimination des fonctionnalités récursives. Vous pouvez en savoir plus à ce sujet dans la vignette , mais voici le processus de base:L'idée de base est d'utiliser un critère (comme les statistiques t) pour éliminer les variables sans importance et voir comment cela améliore la précision prédictive du modèle. Vous enveloppez le tout dans une boucle de rééchantillonnage, comme la validation croisée. Voici un exemple, en utilisant un modèle linéaire pour classer les variables d'une manière similaire à ce que vous avez décrit:
Dans cet exemple, l'algorithme détecte qu'il existe 3 variables "importantes", mais il n'en obtient que 2.
la source