GLM Gamma lié au journal vs GLM gaussien lié au journal vs LM transformé en journal

13

D'après mes résultats, il apparaît que GLM Gamma répond à la plupart des hypothèses, mais est-ce une amélioration intéressante par rapport au LM transformé en log? La plupart de la littérature que j'ai trouvée traite des GLM de Poisson ou binomiaux. J'ai trouvé l'article ÉVALUATION DES HYPOTHÈSES DE MODÈLE LINÉAIRE GÉNÉRALISÉ À L'AIDE DE LA RANDOMISATION très utile, mais il manque les tracés réels utilisés pour prendre une décision. J'espère que quelqu'un d'expérience peut me diriger dans la bonne direction.

Je veux modéliser la distribution de ma variable de réponse T, dont la distribution est tracée ci-dessous. Comme vous pouvez le voir, il est positif dissymétrie:
XHTML valide.

J'ai deux facteurs catégoriques à considérer: METH et CASEPART.
Notez que cette étude est principalement exploratoire, servant essentiellement d'étude pilote avant de théoriser un modèle et d'effectuer le DoE autour de lui.

J'ai les modèles suivants en R, avec leurs tracés de diagnostic:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

XHTML valide
XHTML valide

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

XHTML valide
XHTML valide

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

XHTML valide
XHTML valide

J'ai également atteint les valeurs P suivantes via le test de Shapiro-Wilks sur les résidus:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

J'ai calculé les valeurs AIC et BIC, mais si je me trompe, ils ne me disent pas grand-chose en raison des différentes familles dans les GLM / LM.

J'ai également noté les valeurs extrêmes, mais je ne peux pas les classer comme des valeurs aberrantes car il n'y a pas de "cause spéciale" claire.

TLJ
la source
1
Il convient de noter que les trois modèles sont multiplicatifs dans le sens où une augmentation d'un régresseur est associée à un changement relatif de la réponse typique. Pour les deux GLM log-linéaires, «typique» signifie moyenne arithmétique, tandis que pour le LM transformée log, nous parlons de moyennes géométriques. Ainsi, la façon dont vous souhaitez interpréter les effets et les prévisions est également un facteur déterminant pour le choix du modèle, ayant non seulement des tracés résiduels parfaits (ce sont des données pilotées de toute façon).
Michael M
@MichaelMayer - Merci pour la réponse, très utile. Pourriez-vous nous expliquer un peu comment le choix affecte l'interprétation? Ou me diriger vers une référence?
TLJ
@ Marcinthebox- J'ai parcouru cette question avant de poster. Ne répond pas exactement à ma question de façon très concise.
TLJ

Réponses:

19

Eh bien, il est clair que l'ajustement log-linéaire au gaussien ne convient pas; il y a une forte hétéroscédasticité dans les résidus. Prenons donc cela en considération.

Ce qui reste est lognormal vs gamma.

T

Les deux modèles semblent à peu près également appropriés dans ce cas. Ils ont tous deux une variance proportionnelle au carré de la moyenne, de sorte que le modèle de dispersion des résidus par rapport à l'ajustement est similaire.

Une valeur aberrante faible conviendra un peu mieux avec un gamma qu'une valeur lognormale (vice versa pour une valeur aberrante élevée). À une moyenne et une variance données, la log-normale est plus asymétrique et a un coefficient de variation plus élevé.

exp(μ)σ2

Voir aussi ici et ici pour quelques discussions connexes.

Glen_b -Reinstate Monica
la source
1
@Gleb_b cette réponse est très utile pour mon analyse. J'ai quelques questions. (1) Premièrement, est-ce «Ils ont tous deux une variance proportionnelle au carré de la moyenne ...» sur la base du graphique résiduel vs ajusté? (2) Et est-ce que «une valeur aberrante faible conviendra un peu mieux avec un gamma ... à une moyenne et une variance données, ...» sur la base du tracé qq? (3) D'après ce que je comprends, glm (par exemple gamma, poisson et binôme négatif) n'a pas l'hypothèse de normalité des résidus et d'homogénéité de la variance. Dans l'affirmative, pourquoi le tracé des résidus par rapport au tracé qq ajusté et normal serait-il pertinent pour le diagnostic?
tatami
2
Ceci est suffisamment étendu pour être une toute nouvelle question, voire plusieurs (dont la plupart sont déjà répondues sur notre site!) - 1. une partie du modèle. 2. Non, ce sont des faits généraux sur les distributions. 3. Correct, ils ne sont pas normaux, mais les résidus utilisés dans le graphique QQ sont des résidus de déviance (étudiés en interne) qui - en particulier dans le cas gamma - auront généralement tendance à être très proches de ceux normalement distribués (j'ai écrit une réponse expliquant pourquoi à un certain point) et devrait avoir une variance essentiellement constante. Un écart par rapport à la normalité n'est pas inattendu mais un écart substantiel ... ctd
Glen_b -Reinstate Monica
2
ctd ... de la normalité (en supposant que les autres parcelles sont correctes) peut indiquer un problème avec l'hypothèse de distribution.
Glen_b -Reinstate Monica