D'après ce que j'ai lu, entre autres sur le site du groupe de consultation en statistiques de l' UCLA, les tests de rapport de vraisemblance et les tests wald sont assez similaires pour tester si deux modèles glm montrent une différence significative dans l'ajustement pour un ensemble de données (excusez-moi si mon libellé pourrait être un peu décalé). Essentiellement, je peux comparer deux modèles et tester si le deuxième modèle présente un ajustement nettement meilleur que le premier, ou s'il n'y a pas de différence entre les modèles.
Ainsi, les tests LR et Wald devraient montrer les mêmes valeurs p approximatives pour les mêmes modèles de régression. Au moins la même conclusion devrait sortir.
Maintenant, j'ai fait les deux tests pour le même modèle en R et j'ai obtenu des résultats très différents. Voici les résultats de R pour un modèle:
> lrtest(glm(data$y~1),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -89.808
2 9 -31.625 7 116.37 < 2.2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> lrtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Likelihood ratio test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
#Df LogLik Df Chisq Pr(>Chisq)
1 1 -54.959
2 9 -31.625 8 46.667 1.774e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> waldtest(glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ data$site_name
Model 2: data$y ~ 1
Res.Df Df F Pr(>F)
1 45
2 53 -8 0.7398 0.6562
> waldtest(glm(data$y~1,family="poisson"),glm(data$y~data$site_name,family="poisson"))
Wald test
Model 1: data$y ~ 1
Model 2: data$y ~ data$site_name
Res.Df Df F Pr(>F)
1 53
2 45 8 0.7398 0.6562
À propos des données, la donnée $ y contient les données de comptage et la donnée $ nom_site est un facteur à 9 niveaux. Les données $ y contiennent 54 valeurs , avec 6 valeurs par niveau de données $ nom_site.
Voici les distributions de fréquences:
> table(data$y)
0 2 4 5 7
50 1 1 1 1
> table(data$y,data$site_name)
Andulay Antulang Basak Dauin Poblacion District 1 Guinsuan Kookoo's Nest Lutoban Pier Lutoban South Malatapay Pier
0 6 6 6 4 6 6 6 5 5
2 0 0 0 0 0 0 0 1 0
4 0 0 0 1 0 0 0 0 0
5 0 0 0 0 0 0 0 0 1
7 0 0 0 1 0 0 0 0 0
Maintenant, ces données ne correspondent pas très bien à la distribution de poisson en raison de l'énorme sur-dispersion des comptes nuls. Mais avec un autre modèle, où les données $ y> 0 correspondent assez bien au modèle de poisson, et tout en utilisant un modèle de poisson à zéro gonflé, j'obtiens toujours des tests de wald et des résultats lrtest très différents. Là, le test wald montre une valeur de p de 0,03 tandis que le lrtest a une valeur de p 0,0003. Encore une différence de facteur 100, même si la conclusion pourrait être la même.
Alors qu'est-ce que je comprends mal ici avec le rapport de vraisemblance vs waldtest?
la source
Les deux tests sont asymptotiquement équivalents. Bien sûr, leurs performances (taille et puissance) dans des échantillons finis peuvent différer. Le mieux que vous puissiez faire pour comprendre la différence est d'exécuter une étude de Monte Carlo pour un paramètre similaire au vôtre.
la source
Premièrement, je ne suis pas d'accord avec la réponse de jsakaluk selon laquelle les deux tests testent des choses différentes - ils testent tous les deux si le coefficient dans le modèle plus grand est nul. Ils testent simplement cette hypothèse en faisant différentes approximations (voir l'article lié à ci-dessous).
En ce qui concerne les différences entre leurs résultats, comme l'a dit jsakaluk, cela est probablement dû à la petite taille de l'échantillon / que la probabilité logarithmique est loin d'être quadratique. J'ai écrit un article de blog en 2014 qui passe par là pour un modèle binomial simple, qui peut aider davantage: http://thestatsgeek.com/2014/02/08/wald-vs-likelihood-ratio-test/
la source