Comparaison de deux modèles à l'aide de la fonction anova () dans R

32

De la documentation pour anova():

Lorsqu'une séquence d'objets est donnée, 'anova' teste les modèles les uns par rapport aux autres dans l'ordre spécifié ...

Que signifie tester les modèles les uns contre les autres? Et pourquoi l'ordre compte-t-il?

Voici un exemple tiré du didacticiel GenABEL :

    >  modelAdd = lm(qt~as.numeric(snp1))
    >  modelDom = lm(qt~I(as.numeric(snp1)>=2))
    >  modelRec = lm(qt~I(as.numeric(snp1)>=3))
     anova(modelAdd, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ as.numeric(snp1)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2320                      
    2   2371 2320  1    0.0489     0.82
     anova(modelDom, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 2)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2322                      
    2   2371 2320  1      1.77     0.18
     anova(modelRec, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 3)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)  
    1   2372 2324                        
    2   2371 2320  1      3.53    0.057 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Comment interpréter cette sortie?

qed
la source

Réponses:

31

Lorsque vous utilisez anova(lm.1,lm.2,test="Chisq"), il effectue le test du chi carré pour comparer lm.1et lm.2(c’est-à-dire qu’il vérifie si la réduction de la somme des carrés résiduels est statistiquement significative ou non). Notez que cela n'a de sens que si lm.1et lm.2sont des modèles imbriqués.

Par exemple, dans le premier anova que vous avez utilisé, la valeur p du test est 0,82. Cela signifie que le modèle ajusté "modelAdd" n'est pas très différent de modelGen au niveau deα=0,05. Cependant, en utilisant la valeur de p dans le 3ème anova, le modèle "modelRec" est très différent du modèle de forme "modelGen" àα=0,1.

Consultez ANOVA pour les modèles linéaires .

Stat
la source
1
Mais cela implique-t-il quelque chose pour savoir si l'un des deux est meilleur? Merci!
Qed
5
Cela dépend de la façon dont vous définissez le terme "meilleur". Si vous le définissez comme le modèle qui fournit moins de somme de carrés résiduelle, la réponse est oui. En effet, ce test compare la réduction de la somme des carrés résiduels.
Statue
3
D'autre part, si les deux modèles ne sont pas significativement différents, pourrait-on prétendre que le modèle le plus simple est "meilleur"? Je pense à parcimonie ici.
Sininho
1
Et si le anova (mod1, mod2, test = "LRT") quelle est la différence cela fait-il?
ElleryL