J'ai quelques questions sur l'AIC et j'espère que vous pourrez m'aider. J'ai appliqué la sélection de modèle (en arrière ou en avant) en fonction de l'AIC sur mes données. Et certaines des variables sélectionnées se sont retrouvées avec des valeurs de p> 0,05. Je sais que les gens disent que nous devrions sélectionner des modèles basés sur l'AIC au lieu de la valeur p, il semble donc que l'AIC et la valeur p soient deux concepts différents. Quelqu'un pourrait-il me dire quelle est la différence? Ce que je comprends jusqu'à présent, c'est que:
Pour la sélection vers l'arrière en utilisant l'AIC, supposons que nous ayons 3 variables (var1, var2, var3) et l'AIC de ce modèle est AIC *. Si l'exclusion de l'une de ces trois variables ne se terminait pas avec un AIC nettement inférieur à AIC * (en termes de distribution du carré avec df = 1), alors nous dirions que ces trois variables sont les résultats finaux.
Une valeur de p significative pour une variable (par exemple var1) dans un modèle à trois variables signifie que la taille d'effet normalisée de cette variable est significativement différente de 0 (selon Wald, ou test t).
Quelle est la différence fondamentale entre ces deux méthodes? Comment l'interpréter si certaines variables ont des valeurs de p non significatives dans mon meilleur modèle (obtenues via l'AIC)?
la source
En fait, l'utilisation de l'AIC pour la sélection pas à pas d'une variable à la fois est (au moins asymptotiquement) équivalente à la sélection pas à pas en utilisant un seuil pour les valeurs de p d'environ 15,7%. (C'est assez simple à montrer - l'AIC pour le plus grand modèle sera plus petit s'il réduit la log-vraisemblance de plus que la pénalité pour le paramètre supplémentaire de 2; cela correspond au choix du modèle plus grand si la valeur de p dans un Le chi carré de Wald est plus petit que la zone de queue d'un au-delà de 2 ... qui est de 15,7%)χ21
Il n'est donc pas surprenant de le comparer à l'utilisation d'une valeur de coupure plus petite pour les valeurs de p qui inclut parfois des variables avec des valeurs de p plus élevées que cette valeur de coupure.
la source
Notez que ni les valeurs p ni l'AIC n'ont été conçues pour la sélection de modèle pas à pas, en fait les hypothèses sous-jacentes aux deux (mais hypothèses différentes) sont violées après la première étape d'une régression pas à pas. Comme l'a mentionné @PeterFlom, LASSO et / ou LAR sont de meilleures alternatives si vous ressentez le besoin d'une sélection de modèle automatisée. Ces méthodes ramènent les estimations qui sont grandes par hasard (qui récompensent pas à pas pour le hasard) vers 0 et ont donc tendance à être moins biaisées que par étapes (et le biais restant a tendance à être plus conservateur).
Un gros problème avec AIC qui est souvent négligé est la taille de la différence dans les valeurs AIC, il est tout à fait courant de voir "plus bas est mieux" et de s'arrêter là (et les procédures automatisées le soulignent simplement). Si vous comparez 2 modèles et qu'ils ont des valeurs AIC très différentes, alors il y a une préférence claire pour le modèle avec l'AIC inférieur, mais souvent nous aurons 2 (ou plus) modèles avec des valeurs AIC proches les uns des autres, dans ce cas, en utilisant uniquement le modèle avec la valeur AIC la plus faible, manquera des informations précieuses (et déduire des choses sur des termes qui sont dans ou non dans ce modèle mais diffèrent dans les autres modèles similaires sera dénué de sens ou pire). Les informations provenant de l'extérieur des données elles-mêmes (telles que la difficulté / le coût de la collecte de l'ensemble des variables prédictives) peuvent rendre un modèle avec un AIC légèrement supérieur plus souhaitable à utiliser sans trop de perte de qualité. Une autre approche consiste à utiliser une moyenne pondérée des modèles similaires (cela se traduira probablement par des prédictions finales similaires aux méthodes pénalisées comme la régression des crêtes ou le lasso, mais le processus de réflexion menant au modèle pourrait aider à la compréhension).
la source
D'après mon expérience avec l'AIC, si les variables semblent non significatives, mais apparaissent toujours dans le modèle avec la plus petite AIC, celles-ci s'avèrent être des facteurs de confusion possibles.
Je vous suggère de vérifier la confusion. La suppression de ces variables non significatives devrait modifier la magnétude de certains coefficients estimés restants de plus de 25%.
la source
Je pense que la meilleure sélection de modèles consiste à utiliser le package MuMIn. Ce sera un résultat unique et vous n'aurez pas à rechercher les valeurs AIC les plus faibles. Exemple:
la source