Pourquoi appliquer la sélection de modèle en utilisant AIC me donne des valeurs de p non significatives pour les variables

14

J'ai quelques questions sur l'AIC et j'espère que vous pourrez m'aider. J'ai appliqué la sélection de modèle (en arrière ou en avant) en fonction de l'AIC sur mes données. Et certaines des variables sélectionnées se sont retrouvées avec des valeurs de p> 0,05. Je sais que les gens disent que nous devrions sélectionner des modèles basés sur l'AIC au lieu de la valeur p, il semble donc que l'AIC et la valeur p soient deux concepts différents. Quelqu'un pourrait-il me dire quelle est la différence? Ce que je comprends jusqu'à présent, c'est que:

  1. Pour la sélection vers l'arrière en utilisant l'AIC, supposons que nous ayons 3 variables (var1, var2, var3) et l'AIC de ce modèle est AIC *. Si l'exclusion de l'une de ces trois variables ne se terminait pas avec un AIC nettement inférieur à AIC * (en termes de distribution du carré avec df = 1), alors nous dirions que ces trois variables sont les résultats finaux.

  2. Une valeur de p significative pour une variable (par exemple var1) dans un modèle à trois variables signifie que la taille d'effet normalisée de cette variable est significativement différente de 0 (selon Wald, ou test t).

Quelle est la différence fondamentale entre ces deux méthodes? Comment l'interpréter si certaines variables ont des valeurs de p non significatives dans mon meilleur modèle (obtenues via l'AIC)?

tiantianchen
la source

Réponses:

13

L'AIC et ses variantes sont plus proches des variations de des valeurs de p de chaque régresseur. Plus précisément, ce sont des versions pénalisées de la log-vraisemblance.R2

Vous ne voulez pas tester les différences d'AIC en utilisant le chi carré. Vous pouvez tester les différences de log-vraisemblance en utilisant le chi carré (si les modèles sont imbriqués). Pour AIC, inférieur est meilleur (dans la plupart des implémentations, de toute façon). Aucun autre ajustement nécessaire.

Si vous le pouvez, vous voulez vraiment éviter les méthodes de sélection automatisée de modèles. Si vous devez en utiliser un, essayez LASSO ou LAR.

Peter Flom - Réintégrer Monica
la source
2
Merci pour la réponse. Oui, tu as raison. L'AIC n'applique aucun test, au lieu de cela, il donne une mesure simple de l'adéquation du modèle avec l'échantillon et si le modèle peut également rester simple, en ajoutant la probabilité loglik -2 * avec 2 * nombre_de_paramètres. Cela explique peut-être pourquoi des variables avec des valeurs de p non significatives ont été conservées dans le modèle sélectionné?
tiantianchen
Quel modèle choisir si nous avons deux modèles avec AIC presque identiques, mais dans l'un, nous avons des termes plus significatifs que dans l'autre?
Agus Camacho
Celui que vous voulez.
Peter Flom - Réintègre Monica
11

En fait, l'utilisation de l'AIC pour la sélection pas à pas d'une variable à la fois est (au moins asymptotiquement) équivalente à la sélection pas à pas en utilisant un seuil pour les valeurs de p d'environ 15,7%. (C'est assez simple à montrer - l'AIC pour le plus grand modèle sera plus petit s'il réduit la log-vraisemblance de plus que la pénalité pour le paramètre supplémentaire de 2; cela correspond au choix du modèle plus grand si la valeur de p dans un Le chi carré de Wald est plus petit que la zone de queue d'un au-delà de 2 ... qui est de 15,7%)χ12

Il n'est donc pas surprenant de le comparer à l'utilisation d'une valeur de coupure plus petite pour les valeurs de p qui inclut parfois des variables avec des valeurs de p plus élevées que cette valeur de coupure.

Glen_b -Reinstate Monica
la source
pouvez-vous me pointer vers une URL ou une référence pour la connexion entre AIC et les valeurs p via Wal chi-square? Merci.
meh
Ceci est relativement facile à montrer en utilisant la valeur de 2 comme valeur critique, ce qui correspond à un seuil de valeur p de 15,73% (lorsque les degrés de liberté du test sont 1, comme c'est le cas dans la sélection pas à pas par régression linéaire modèles et variables continues). Cela peut être calculé comme 1-chi2cdf (2,1).
George
@aginensky N'a pas vu de référence réelle, bien que la connexion soit simple. J'imagine que je peux google un, accrochez-vous.
Glen_b -Reinstate Monica
@aginensky Lindsey, JK & Jones, B. (1998) Choisir parmi les modèles linéaires généralisés appliqués aux données médicales. Statistiques en médecine , 17, 59-68. ... voir milieu de la page 62. Il y en aurait plus.
Glen_b -Reinstate Monica
@ Glen_b- merci, je n'avais jamais rien vu de tel auparavant.
meh
9

Notez que ni les valeurs p ni l'AIC n'ont été conçues pour la sélection de modèle pas à pas, en fait les hypothèses sous-jacentes aux deux (mais hypothèses différentes) sont violées après la première étape d'une régression pas à pas. Comme l'a mentionné @PeterFlom, LASSO et / ou LAR sont de meilleures alternatives si vous ressentez le besoin d'une sélection de modèle automatisée. Ces méthodes ramènent les estimations qui sont grandes par hasard (qui récompensent pas à pas pour le hasard) vers 0 et ont donc tendance à être moins biaisées que par étapes (et le biais restant a tendance à être plus conservateur).

Un gros problème avec AIC qui est souvent négligé est la taille de la différence dans les valeurs AIC, il est tout à fait courant de voir "plus bas est mieux" et de s'arrêter là (et les procédures automatisées le soulignent simplement). Si vous comparez 2 modèles et qu'ils ont des valeurs AIC très différentes, alors il y a une préférence claire pour le modèle avec l'AIC inférieur, mais souvent nous aurons 2 (ou plus) modèles avec des valeurs AIC proches les uns des autres, dans ce cas, en utilisant uniquement le modèle avec la valeur AIC la plus faible, manquera des informations précieuses (et déduire des choses sur des termes qui sont dans ou non dans ce modèle mais diffèrent dans les autres modèles similaires sera dénué de sens ou pire). Les informations provenant de l'extérieur des données elles-mêmes (telles que la difficulté / le coût de la collecte de l'ensemble des variables prédictives) peuvent rendre un modèle avec un AIC légèrement supérieur plus souhaitable à utiliser sans trop de perte de qualité. Une autre approche consiste à utiliser une moyenne pondérée des modèles similaires (cela se traduira probablement par des prédictions finales similaires aux méthodes pénalisées comme la régression des crêtes ou le lasso, mais le processus de réflexion menant au modèle pourrait aider à la compréhension).

Greg Snow
la source
Merci @GregSnow pour votre réponse. Puis-je demander quelles sont les (différentes) hypothèses pour la sélection de la valeur p et du modèle AIC? L'application d'une bi-direction (avant / arrière) ou l'essai d'un sous-ensemble complet résoudront-ils plus ou moins le problème de la recherche du modèle local optimal de simplification à l'aide d'une sélection pas à pas vers l'avant ou vers l'arrière? (bien que le problème de sur-ajustement existe toujours dans la méthode AIC / p-value et LASSO et / ou LAR est une meilleure option)
tiantianchen
Étant donné que ni les valeurs p ni l'AIC n'ont été conçues pour la sélection du modèle, elles n'ont pas d'hypothèses pour la sélection du modèle. Les deux ont été conçus pour faire une seule comparaison, pensez au nombre de comparaisons qui ont lieu dans une régression pas à pas, pensez-vous vraiment que la "meilleure" étape est prise à chaque fois?
Greg Snow
@GregSnow. Ma référence pour l'apprentissage de l'AIC était la suivante: stat.cmu.edu/~larry/=stat705/Lecture16.pdf qui semble placer l'AIC dans le secteur de la sélection de modèles. De plus, lorsque j'ai vu l'AIC utilisé dans les modèles arima de séries chronologiques, il a toujours été utilisé pour la sélection des modèles.
meh
@aginensky, Oui, AIC (et autres) sont utilisés pour la sélection des modèles. Cela ne signifie pas que l'AIC a été conçu pour la sélection de modèle, ni qu'il est même approprié pour la sélection de modèle, ou que la sélection de modèle automatisée répond à une question significative. J'ai déjà utilisé un tournevis comme marteau, cela ne veut pas dire que c'est une bonne idée en général.
Greg Snow
"Cet article décrit comment le problème de la sélection de modèles statistiques peut être systématiquement traité en utilisant un critère d'information (AIC) introduit par l'auteur en 1971" de Akaike, "Un nouveau regard sur l'identification des modèles statistiques". Donc, même si l'AIC est un marteau utilisé sur un problème qui est mieux résolu par un tournevis, le concepteur de ce marteau était d'avis qu'un marteau était la bonne façon de résoudre ce problème. Correctement ou incorrectement, l'AIC a été conçu pour la sélection des modèles. Je serais ravi de voir une vision différente de l'AIC. N'hésitez pas à répondre à cela, mais j'en ai fini.
meh
1

D'après mon expérience avec l'AIC, si les variables semblent non significatives, mais apparaissent toujours dans le modèle avec la plus petite AIC, celles-ci s'avèrent être des facteurs de confusion possibles.

Je vous suggère de vérifier la confusion. La suppression de ces variables non significatives devrait modifier la magnétude de certains coefficients estimés restants de plus de 25%.

Adiaba
la source
Veuillez expliquer comment OP "peut vérifier la confusion".
Jim
0

Je pense que la meilleure sélection de modèles consiste à utiliser le package MuMIn. Ce sera un résultat unique et vous n'aurez pas à rechercher les valeurs AIC les plus faibles. Exemple:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]
Ravi Mohan Tiwari
la source
2
Dire quel code vous pourriez utiliser ne répond pas vraiment à la question, sauf si vous pouvez expliquer comment cela répond statistiquement à la question. En tout cas, rien dans la question n'est spécifique à un logiciel particulier.
Nick Cox