Quelqu'un pourrait-il indiquer si ce qui suit est logique:
J'ai affaire à un modèle linéaire ordinaire avec 4 prédicteurs. Je suis dans deux esprits s'il faut abandonner le terme le moins significatif. Sa valeur est un peu plus de 0,05. J'ai plaidé en faveur de l'abandon dans ces conditions: multiplier l'estimation de ce terme par (par exemple) la plage interquartile des données de l'échantillon pour cette variable, donne une certaine signification à l'effet clinique que le maintien de ce terme a sur le modèle global . Étant donné que ce nombre est très faible, approximativement égal à la plage de valeurs intra-journalière typique que la variable peut prendre lors de la mesure dans un contexte clinique, je le considère comme non cliniquement significatif et pourrait donc être abandonné pour donner un modèle plus parcimonieux, même bien que la baisse réduise un peu le ajusté .
la source
Réponses:
Je n'ai jamais compris le souhait de parcimonie. La recherche de parcimonie détruit tous les aspects de l'inférence statistique (biais des coefficients de régression, erreurs standard, intervalles de confiance, valeurs de P). Une bonne raison de conserver des variables est que cela préserve la précision des intervalles de confiance et d'autres quantités. Pensez-y de cette façon: il n'y a eu que deux estimateurs non biaisés de la variance résiduelle dans la régression multiple ordinaire: (1) l'estimation à partir du (grand) modèle prédéfini, et (2) l'estimation à partir d'un modèle réduit remplaçant les degrés généralisés de liberté (GDF) pour les degrés de liberté de régression apparents (réduits). GDF sera beaucoup plus proche du nombre de paramètres candidats que du nombre de paramètres finaux "significatifs".
Voici une autre façon de penser. Supposons que vous effectuiez une ANOVA pour comparer 5 traitements, obtenant un test F de 4 df. Ensuite, pour une raison quelconque, vous examinez les différences par paire entre les traitements à l'aide de tests t et décidez de combiner ou de supprimer certains des traitements (cela revient à faire une sélection par étapes en utilisant P, AIC, BIC, Cp sur les 4 variables muettes). Le test F résultant avec 1, 2 ou 3 df aura une erreur de type I gonflée. Le test F original avec 4 df contenait un ajustement de multiplicité parfait.
la source
Ces réponses sur la sélection des variables supposent toutes que le coût de l'observation des variables est de 0.
Et ce n'est pas vrai.
Bien que la question de la sélection des variables pour un modèle donné puisse impliquer ou non la sélection, les implications pour le comportement futur impliquent la sélection.
Considérez le problème de prédire quel joueur de ligne collégial fera le mieux dans la NFL. Vous êtes éclaireur. Vous devez considérer quelles qualités des joueurs de ligne actuels de la NFL sont les plus prédictifs de leur succès. Vous mesurez 500 quantités et commencez la tâche de sélection des quantités qui seront nécessaires à l'avenir.
Que devrais tu faire? Devriez-vous conserver les 500? Faut-il éliminer certains (signe astrologique, jour de la semaine né)?
Il s'agit d'une question importante et non académique. L'observation des données a un coût et le cadre de rentabilité suggère que certaines variables NE DOIVENT PAS être observées à l'avenir, car leur valeur est faible.
la source
Il existe au moins deux autres raisons possibles pour conserver une variable: 1) Elle affecte les paramètres des AUTRES variables. 2) Le fait qu'il soit petit est cliniquement intéressant en soi
Pour voir environ 1, vous pouvez regarder les valeurs prévues pour chaque personne d'un modèle avec et sans la variable dans le modèle. Je suggère de faire un nuage de points de ces deux ensembles de valeurs. S'il n'y a pas de grandes différences, c'est un argument contre cette raison
Pour 2, réfléchissez à la raison pour laquelle vous aviez cette variable dans la liste des variables possibles. Est-ce basé sur la théorie? D'autres recherches ont-elles trouvé une grande taille d'effet?
la source
Le conseil le plus courant de nos jours est d'obtenir l'AIC des deux modèles et de prendre celui avec l'AIC inférieur. Donc, si votre modèle complet a un AIC de -20 et que le modèle sans le prédicteur le plus faible a un AIC> -20, vous conservez le modèle complet. Certains pourraient soutenir que si la différence <3, vous gardez la plus simple. Je préfère le conseil que vous pouvez utiliser le BIC pour briser les «liens» lorsque les AIC sont à moins de 3 l'un de l'autre.
Si vous utilisez R alors la commande pour obtenir l'AIC est ...
AIC
.J'ai un manuel sur la modélisation ici du début des années 90 suggérant que vous supprimez tous vos prédicteurs qui ne sont pas significatifs. Cependant, cela signifie vraiment que vous chuterez indépendamment de la complexité que le prédicteur ajoute ou soustrait du modèle. C'est aussi uniquement pour l'ANOVA où la signification concerne la variabilité expliquée plutôt que l'ampleur de la pente à la lumière de ce que d'autres choses ont été expliquées. Les conseils plus modernes d'utilisation de l'AIC tiennent compte de ces facteurs. Il y a toutes sortes de raisons pour lesquelles le prédicteur non significatif devrait être inclus même s'il n'est pas significatif. Par exemple, il peut y avoir des problèmes de corrélation avec d'autres prédicteurs, il peut s'agir d'un prédicteur relativement simple. Si vous voulez le conseil le plus simple, allez avec AIC et utilisez BIC pour rompre les liens et utilisez une différence de 3 comme fenêtre d'égalité.
la source
Pourquoi utilisez-vous ce modèle? La parcimonie est-elle un objectif important?
Des modèles plus parcimonieux sont préférés dans certaines situations, mais je ne dirais pas que la parcimonie est une bonne chose en soi. Les modèles parcimonieux peuvent être compris et communiqués plus facilement, et la parcimonie peut aider à se prémunir contre un ajustement excessif, mais souvent ces problèmes ne sont pas des préoccupations majeures ou peuvent être traités d'une autre manière.
L'approche de la direction opposée, y compris un terme supplémentaire dans une équation de régression présente certains avantages, même dans les situations où le terme supplémentaire lui-même n'est pas intéressant et n'améliore pas le modèle s'adapte beaucoup ... vous ne pouvez pas penser qu'il est une variable importante à contrôler, mais d'autres le pourraient. Bien sûr, il existe d'autres raisons de fond très importantes pour exclure une variable, par exemple, elle peut être causée par le résultat.
la source
D'après votre formulation, il semble que vous ayez tendance à laisser tomber le dernier prédicteur car sa valeur prédictive est faible; un changement substantiel sur ce prédicteur n'impliquerait pas un changement substantiel sur la variable de réponse. Si tel est le cas, j'aime ce critère pour inclure / supprimer le prédicteur. Il est plus ancré dans la réalité pratique que l'AIC ou le BIC ne peut l'être, et plus explicable à votre public pour cette recherche.
la source