D'après mes résultats, il apparaît que GLM Gamma répond à la plupart des hypothèses, mais est-ce une amélioration intéressante par rapport au LM transformé en log? La plupart de la littérature que j'ai trouvée traite des GLM de Poisson ou binomiaux. J'ai trouvé l'article ÉVALUATION DES HYPOTHÈSES DE MODÈLE LINÉAIRE GÉNÉRALISÉ À L'AIDE DE LA RANDOMISATION très utile, mais il manque les tracés réels utilisés pour prendre une décision. J'espère que quelqu'un d'expérience peut me diriger dans la bonne direction.
Je veux modéliser la distribution de ma variable de réponse T, dont la distribution est tracée ci-dessous. Comme vous pouvez le voir, il est positif dissymétrie:
.
J'ai deux facteurs catégoriques à considérer: METH et CASEPART.
Notez que cette étude est principalement exploratoire, servant essentiellement d'étude pilote avant de théoriser un modèle et d'effectuer le DoE autour de lui.
J'ai les modèles suivants en R, avec leurs tracés de diagnostic:
LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)
GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))
GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))
J'ai également atteint les valeurs P suivantes via le test de Shapiro-Wilks sur les résidus:
LM.LOG: 2.347e-11
GLM.GAMMA: 0.6288
GLM.GAUS: 0.6288
J'ai calculé les valeurs AIC et BIC, mais si je me trompe, ils ne me disent pas grand-chose en raison des différentes familles dans les GLM / LM.
J'ai également noté les valeurs extrêmes, mais je ne peux pas les classer comme des valeurs aberrantes car il n'y a pas de "cause spéciale" claire.
Réponses:
Eh bien, il est clair que l'ajustement log-linéaire au gaussien ne convient pas; il y a une forte hétéroscédasticité dans les résidus. Prenons donc cela en considération.
Ce qui reste est lognormal vs gamma.
Les deux modèles semblent à peu près également appropriés dans ce cas. Ils ont tous deux une variance proportionnelle au carré de la moyenne, de sorte que le modèle de dispersion des résidus par rapport à l'ajustement est similaire.
Une valeur aberrante faible conviendra un peu mieux avec un gamma qu'une valeur lognormale (vice versa pour une valeur aberrante élevée). À une moyenne et une variance données, la log-normale est plus asymétrique et a un coefficient de variation plus élevé.
Voir aussi ici et ici pour quelques discussions connexes.
la source