Dans R, la drop1
commande sort quelque chose de bien.
Ces deux commandes devraient vous donner une sortie:
example(step)#-> swiss
drop1(lm1, test="F")
Le mien ressemble à ceci:
> drop1(lm1, test="F")
Single term deletions
Model:
Fertility ~ Agriculture + Examination + Education + Catholic +
Infant.Mortality
Df Sum of Sq RSS AIC F value Pr(F)
<none> 2105.0 190.69
Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 *
Examination 1 53.03 2158.1 189.86 1.0328 0.315462
Education 1 1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic 1 447.71 2552.8 197.75 8.7200 0.005190 **
Infant.Mortality 1 408.75 2513.8 197.03 7.9612 0.007336 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Qu'est-ce que tout cela veut dire? Je suppose que les "étoiles" aident à décider quelles variables d'entrée doivent être conservées. En regardant la sortie ci-dessus, je veux jeter la variable "Examination" et me concentrer sur la variable "Education", l'interprétation est-elle correcte?
En outre, la valeur AIC, inférieure est meilleure, oui?
Ed. Veuillez noter la réponse du wiki communautaire ci-dessous et y ajouter si vous le souhaitez, pour clarifier cette sortie.
step()
une note de +2 au moment d'écrire ces lignes (alors pourquoi?!), (3) le PO a reconnu l'utilité de la réponse de @ Joris.Réponses:
drop1
vous donne une comparaison des modèles basés sur le critère AIC, et lorsque vous utilisez l'optiontest="F"
vous y ajoutez une "ANOVA de type II", comme expliqué dans les fichiers d'aide . Tant que vous n'avez que des variables continues, ce tableau est exactement équivalent àsummary(lm1)
, car les valeurs F ne sont que ces valeurs T au carré. Les valeurs P sont exactement les mêmes.Alors qu'en faire? Interprétez-le exactement de cette façon: il exprime en quelque sorte si le modèle sans ce terme est "significativement" différent du modèle avec ce terme. Attention au "" autour, car la signification ici ne peut pas être interprétée comme le pensent la plupart des gens. (problème de multi-tests et tout ...)
Et en ce qui concerne l'AIC: plus la valeur est basse, mieux c'est. AIC est une valeur qui va pour le modèle , pas pour la variable. Ainsi, le meilleur modèle de cette sortie serait celui sans examen variable.
Attention, le calcul des statistiques AIC et F est différent des fonctions R
AIC(lm1)
resp.anova(lm1)
. CarAIC()
, ces informations sont données sur les pages d'aide deextractAIC()
. Pour laanova()
fonction, il est assez évident que les SS de type I et de type II ne sont pas les mêmes.J'essaie de ne pas être impoli, mais si vous ne comprenez pas ce qui est expliqué dans les fichiers d'aide, vous ne devriez pas utiliser la fonction en premier lieu. La régression pas à pas est incroyablement délicate, mettant en péril vos valeurs p de la manière la plus profonde. Encore une fois, ne vous basez pas sur les valeurs de p. Votre modèle doit refléter votre hypothèse et non l'inverse.
la source
Pour référence, ce sont les valeurs qui sont incluses dans le tableau:
Df
fait référence aux degrés de liberté , "le nombre de degrés de liberté est le nombre de valeurs dans le calcul final d'une statistique qui sont libres de varier".La
Sum of Sq
colonne fait référence à la somme des carrés (ou plus précisément à la somme des écarts au carré ). En bref, il s'agit d'une mesure du montant que chaque valeur individuelle s'écarte de la moyenne globale de ces valeurs.RSS
est la somme résiduelle des carrés . Il s'agit d'une mesure de la variation de la valeur prédite de la variable dépendante (ou de sortie) par rapport à la valeur réelle pour chaque point de données de l'ensemble (ou plus familièrement: chaque "ligne" dans le tableau de données).AIC
est le critère d'information d'Akaike qui est généralement considéré comme «trop complexe à expliquer» mais qui, en bref, est une mesure de la qualité de l'ajustement d'un modèle statistique estimé. Si vous avez besoin de plus de détails, vous devrez vous tourner vers des arbres morts avec des mots dessus (c'est-à-dire des livres). Ou Wikipedia et les ressources là-bas.Le
F value
est utilisé pour effectuer ce qu'on appelle un test F et de lui dérive laPr(F)
valeur, qui décrit la probabilité (ou Probable = Pr) que la valeur F est. Une valeur Pr (F) proche de zéro (indiquée par***
) indique une variable d'entrée qui est en quelque sorte importante à inclure dans un bon modèle, c'est-à-dire qu'un modèle qui ne l'inclut pas est "significativement" différent de celui cela fait.Toutes ces valeurs sont, dans le contexte de la
drop1
commande, calculées pour comparer le modèle global (y compris toutes les variables d'entrée) avec le modèle résultant de la suppression de cette variable spécifique pour chaque ligne du tableau de sortie.Maintenant, si cela peut être amélioré, n'hésitez pas à y ajouter ou à clarifier tout problème. Mon but est seulement de clarifier et de fournir une meilleure référence de "recherche inversée" de la sortie d'une commande R à sa signification réelle.
la source