Je suis tout nouveau sur cette chose R, mais je ne sais pas quel modèle sélectionner.
J'ai fait une régression pas à pas en sélectionnant chaque variable en fonction de l'AIC le plus bas. Je suis venu avec 3 modèles dont je ne sais pas quel est le "meilleur".
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
Je suis enclin à aller avec le modèle # 3 car il a le plus faible AIC (j'ai entendu que le négatif est correct) et les valeurs de p sont toujours plutôt faibles.
J'ai exécuté 8 variables comme prédicteurs de la masse des nouveau-nés et j'ai découvert que ces trois variables sont les meilleurs prédicteurs.
Mon prochain pas à pas, je choisis le modèle 2 parce que même si l'AIC était légèrement plus grand, les valeurs de p étaient toutes plus petites. Êtes-vous d'accord pour dire que c'est le meilleur?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
Merci!
Réponses:
L'AIC est une mesure de la qualité de l'ajustement qui favorise une erreur résiduelle plus petite dans le modèle, mais pénalise l'inclusion d'autres prédicteurs et aide à éviter le sur-ajustement. Dans votre deuxième ensemble de modèles, le modèle 1 (celui avec l'AIC le plus bas) peut être plus performant lorsqu'il est utilisé pour la prédiction en dehors de votre ensemble de données. Une explication possible de la raison pour laquelle l'ajout de Var4 au modèle 2 entraîne un AIC inférieur, mais des valeurs de p plus élevées est que Var4 est quelque peu corrélé avec Var1, 2 et 3. L'interprétation du modèle 2 est donc plus facile.
la source
L'examen des valeurs p individuelles peut être trompeur. Si vous avez des variables colinéaires (à forte corrélation), vous obtiendrez de grandes valeurs p. Cela ne signifie pas que les variables sont inutiles.
En règle générale, il est préférable de sélectionner votre modèle avec les critères AIC que de regarder les valeurs p.
L'une des raisons pour lesquelles il se peut que vous ne sélectionniez pas le modèle avec l'AIC le plus faible est lorsque le rapport variable / point de données est important.
Notez que la sélection du modèle et la précision des prédictions sont des problèmes quelque peu distincts. Si votre objectif est d'obtenir des prévisions précises, je vous suggère de procéder à une validation croisée de votre modèle en séparant vos données dans un ensemble de formation et de test.
Un article sur la sélection des variables: Ensembles stochastiques pas à pas pour la sélection des variables
la source
L'AIC est motivée par l'estimation de l'erreur de généralisation (comme le CP de Mallow, le BIC, ...). Si vous souhaitez utiliser le modèle de prédictions, utilisez plutôt l'un de ces critères. Si vous voulez que votre modèle explique un phénomène, utilisez des valeurs de p.
Voir aussi ici .
la source