Comment interpréter les paramètres dans GLM avec la famille = Gamma

21

J'ai une question concernant l'interprétation des paramètres d'un GLM avec une variable dépendante distribuée gamma. Voici ce que R renvoie pour mon GLM avec un lien de connexion:

Call:
glm(formula = income ~ height + age + educat + married + sex + language + highschool, 
    family = Gamma(link = log), data = fakesoep)

Deviance Residuals: 
       Min        1Q    Median        3Q       Max  
  -1.47399  -0.31490  -0.05961   0.18374   1.94176  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.2202325  0.2182771  28.497  < 2e-16 ***
height       0.0082530  0.0011930   6.918 5.58e-12 ***
age          0.0001786  0.0009345   0.191    0.848    
educat       0.0119425  0.0009816  12.166  < 2e-16 ***
married     -0.0178813  0.0173453  -1.031    0.303    
sex         -0.3179608  0.0216168 -14.709  < 2e-16 ***
language     0.0050755  0.0279452   0.182    0.856    
highschool   0.3466434  0.0167621  20.680  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Gamma family taken to be 0.1747557)

Null deviance: 757.46  on 2999  degrees of freedom
Residual deviance: 502.50  on 2992  degrees of freedom
AIC: 49184

Comment interpréter les paramètres? Si je calcule exp(coef())mon modèle, j'obtiens ~ 500 pour l'interception. Maintenant, je crois que cela ne signifie pas le revenu attendu si toutes les autres variables sont maintenues constantes, n'est-ce pas? Étant donné que la moyenne ou mean(age)se situe à ~ 2000, je n'ai en outre aucune idée de la façon d'interpréter la direction et la valeur des coefficients des covariables.

gung - Réintégrer Monica
la source
6
500 serait proche du revenu attendu si toutes les autres variables étaient exactement nulles (pas simplement constantes) --- comme en régression, vraiment.
Glen_b -Reinstate Monica
@Glen_b pourquoi ce revenu serait-il attendu lorsque l'exponentielle des coefficients est l'effet multiplicateur sur le revenu quand il y a un changement de variable explicative?
tatami
Le cas en discussion est la moyenne conditionnelle lorsque toutes les variables explicatives sont à 0.
Glen_b -Reinstate Monica

Réponses:

25

La spécification gamma GLM liée au journal est identique à la régression exponentielle:

E[y|x,z]=exp(α+βx+γz)=y^

E[y|x=0,z=0]=exp(α)

yxx

E[y|x,z]x=exp(α+βx+γz)β=y^β

XzXzy^βXy

X

E[y|z,X=1]-E[y|z,X=0]=exp(α+β+γz)-exp(α+γz)=exp(α+γz)(exp(β)-1)

X

La troisième méthode consiste à exponentialiser les coefficients. Notez que:

E[y|z,X+1]=exp(α+β(X+1)+γz)=exp(α+βX+β+γz)=exp(α+βX+γz)exp(β)=E[y|z,X]exp(β)

X

Dimitriy V. Masterov
la source
1
Pourriez-vous illustrer la deuxième interprétation?
tatami
@tatami J'ai corrigé une erreur dans le cas binaire. Est-ce que cela a plus de sens maintenant?
Dimitriy V. Masterov,
2

Tout d'abord, je regarderais les résidus pour voir à quel point le modèle s'intègre. Si c'est OK, j'essaierais d'utiliser d'autres fonctions de lien, sauf si j'avais des raisons de croire que cela venait vraiment d'une distribution gamma. Si le gamma semblait toujours convaincant, je conclurais que les termes statistiquement significatifs sont l'interception, la taille, l'éducation, le sexe et le lycée (ceux marqués de trois étoiles). Entre eux, on ne peut en dire plus que s'ils sont standardisés (ont la même gamme).

Réponse au commentaire: je comprends mieux votre question maintenant. Vous pouvez absolument faire ça! Une augmentation d' une unité de hauteur provoque une exp (0,0082530) -1 ~ = 0,0082530 ( en utilisant l'exp x = 1 + x approximation pour les petites x) par rapport variation du revenu. Très facile à interpréter, non?

Emre
la source
1
Je ne peux donc pas réellement interpréter les paramètres, par exemple le revenu augmente de xy si la hauteur augmente de un?
1
Je crois maintenant que je dois l'interpréter de manière multiplicative: exp (Intercept) * exp (hauteur) serait le revenu avec une augmentation de 1 unité de hauteur. Merci quand même! :)