AIC ou p-value: lequel choisir pour la sélection du modèle?

22

Je suis tout nouveau sur cette chose R, mais je ne sais pas quel modèle sélectionner.

  1. J'ai fait une régression pas à pas en sélectionnant chaque variable en fonction de l'AIC le plus bas. Je suis venu avec 3 modèles dont je ne sais pas quel est le "meilleur".

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    Je suis enclin à aller avec le modèle # 3 car il a le plus faible AIC (j'ai entendu que le négatif est correct) et les valeurs de p sont toujours plutôt faibles.

    J'ai exécuté 8 variables comme prédicteurs de la masse des nouveau-nés et j'ai découvert que ces trois variables sont les meilleurs prédicteurs.

  2. Mon prochain pas à pas, je choisis le modèle 2 parce que même si l'AIC était légèrement plus grand, les valeurs de p étaient toutes plus petites. Êtes-vous d'accord pour dire que c'est le meilleur?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

Merci!

MEL
la source
Pourriez-vous nous dire la différence entre (1) et (2)? Il est clair que quelque chose a changé, car le modèle 3 en (1) et le modèle 2 en (2) sont nominalement identiques mais les valeurs p et AIC diffèrent.
whuber
2
Cette question a été republiée deux fois, ce qui signifie que non seulement nous devons les fermer, mais également les réponses associées qui vous ont déjà été fournies. Pourriez-vous s'il vous plaît enregistrer votre compte (voir la FAQ ) et prêter attention à la politique de publication de StackExchange à l'avenir? Merci.
chl
@whuber, j'ai bien peur de ne pas bien comprendre votre question. C'est probablement mon manque de compréhension statistique. Mais pour essayer de clarifier. Le modèle 1 a 4 variables, le modèle 2 a 3 variables et le modèle 3 a 2 variables. Les variables sont dans le même ordre dans chaque modèle (ce qui signifie variable un = temp dans chaque modèle). Je pense que @GaBorgulya et @djma ont parfaitement répondu à ma question. La variable 4 IS est corrélée avec la variable 3. AH-HA! Logique. merci oodles!
MEL
J'ai converti votre réponse au commentaire ci-dessus. Si vous pensez qu'une des réponses actuelles vous a aidé ou répondu à votre question, n'oubliez pas de l'accepter, comme l'a gentiment rappelé @richiemorrisroe. BTW, bon de voir que vous avez enregistré votre compte.
chl

Réponses:

23

L'AIC est une mesure de la qualité de l'ajustement qui favorise une erreur résiduelle plus petite dans le modèle, mais pénalise l'inclusion d'autres prédicteurs et aide à éviter le sur-ajustement. Dans votre deuxième ensemble de modèles, le modèle 1 (celui avec l'AIC le plus bas) peut être plus performant lorsqu'il est utilisé pour la prédiction en dehors de votre ensemble de données. Une explication possible de la raison pour laquelle l'ajout de Var4 au modèle 2 entraîne un AIC inférieur, mais des valeurs de p plus élevées est que Var4 est quelque peu corrélé avec Var1, 2 et 3. L'interprétation du modèle 2 est donc plus facile.

GaBorgulya
la source
31

L'examen des valeurs p individuelles peut être trompeur. Si vous avez des variables colinéaires (à forte corrélation), vous obtiendrez de grandes valeurs p. Cela ne signifie pas que les variables sont inutiles.

En règle générale, il est préférable de sélectionner votre modèle avec les critères AIC que de regarder les valeurs p.

L'une des raisons pour lesquelles il se peut que vous ne sélectionniez pas le modèle avec l'AIC le plus faible est lorsque le rapport variable / point de données est important.

Notez que la sélection du modèle et la précision des prédictions sont des problèmes quelque peu distincts. Si votre objectif est d'obtenir des prévisions précises, je vous suggère de procéder à une validation croisée de votre modèle en séparant vos données dans un ensemble de formation et de test.

Un article sur la sélection des variables: Ensembles stochastiques pas à pas pour la sélection des variables

djma
la source
4
Si votre objectif est la précision des prédictions, vous souhaitez utiliser l'AIC (car il minimise la divergence KL attendue entre le modèle ajusté et la vérité). Si vous voulez une procédure de sélection de modèle cohérente (p fixe, n croissant), vous pouvez utiliser, disons, BIC à la place. L'utilisation de valeurs de p dans la régression pas à pas pour sélectionner des hypothèses n'est définitivement pas recommandée.
emakalic
8
0,154|t|>Journal(N)
-3

L'AIC est motivée par l'estimation de l'erreur de généralisation (comme le CP de Mallow, le BIC, ...). Si vous souhaitez utiliser le modèle de prédictions, utilisez plutôt l'un de ces critères. Si vous voulez que votre modèle explique un phénomène, utilisez des valeurs de p.

Voir aussi ici .

JohnRos
la source