Interprétation de la sortie d'étape dans R

11

Dans R, la stepcommande est censée vous aider à sélectionner les variables d'entrée de votre modèle, non?

Ce qui suit provient de example(step)#-> swiss& step(lm1)

> step(lm1)
Start:  AIC=190.69
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality

                   Df Sum of Sq    RSS    AIC
- Examination       1     53.03 2158.1 189.86
<none>                          2105.0 190.69
- Agriculture       1    307.72 2412.8 195.10
- Infant.Mortality  1    408.75 2513.8 197.03
- Catholic          1    447.71 2552.8 197.75
- Education         1   1162.56 3267.6 209.36

Step:  AIC=189.86
Fertility ~ Agriculture + Education + Catholic + Infant.Mortality

                   Df Sum of Sq    RSS    AIC
<none>                          2158.1 189.86
- Agriculture       1    264.18 2422.2 193.29
- Infant.Mortality  1    409.81 2567.9 196.03
- Catholic          1    956.57 3114.6 205.10
- Education         1   2249.97 4408.0 221.43

Call:
lm(formula = Fertility ~ Agriculture + Education + Catholic +     Infant.Mortality, data = swiss)

Coefficients:
     (Intercept)       Agriculture         Education  
         62.1013           -0.1546           -0.9803  
        Catholic  Infant.Mortality  
          0.1247            1.0784  

Maintenant, quand je regarde cela, je suppose que la dernière table Step est le modèle que nous devrions utiliser? Les dernières lignes incluent la fonction "Appel", qui décrit le modèle réel et quelles variables d'entrée il inclut, et les "Coefficients" sont les estimations réelles des paramètres pour ces valeurs, non? C'est donc le modèle que je veux, non? J'essaie d'extrapoler cela à mon projet, où il y a plus de variables.

gakera
la source

Réponses:

7

Le dernier tableau des étapes est en effet le résultat final de la "régression pas à pas". La mise en garde ici est que, généralement, vous ne voulez pas utiliser cette approche lorsqu'il existe une manière raisonnée d'aborder les spécifications de votre modèle. L'appel est l'appel lm qui produirait l'équation utilisée à l'étape finale. Les coefficients sont les estimations réelles des paramètres. Il est à noter que parce que vous n'avez pas défini d'étape de paramètre d'étendue ou de direction par défaut pour une approche d'étape `` en arrière '', dans laquelle les termes variables sont évalués pour être supprimés à chaque étape, à chaque étape si la suppression de la variable sélectionnée diminue l'AIC, elle est supprimée à partir du modèle et le processus entier se répète jusqu'à ce qu'il devienne le cas qu'aucune variable unique ne peut être supprimée. Dans votre exemple à l'étape finale Fertilité ~ Agriculture + Éducation + Catholique + Infantile.

russellpierce
la source
2

La partie de l'impression à la fin est le modèle qui vous reste. Vous pouvez également l'obtenir si vous capturez la valeur de la stepfonction:

final.mod <- step(lm1)
final.mod
Aniko
la source