Permettez-moi d'abord de donner quelques informations; Je résumerai mes questions à la fin.
La distribution bêta, paramétrée par sa moyenne et , a , où est la fonction de variance.
Dans une régression bêta (par exemple, en utilisant le package betareg dans R), la régression suppose des erreurs distribuées bêta et estime les effets fixes et la valeur de .
En régression glm, il est possible de définir une distribution "quasi" avec une fonction de variance de . Donc, ici, le modèle suppose des erreurs avec la même fonction de variance que Beta. La régression estime ensuite les effets fixes et la "dispersion" de la quasi-distribution.
Il me manque peut-être quelque chose d'important, mais il semblerait que ces deux méthodes soient essentiellement identiques, ne différant peut-être que par leur méthode d'estimation.
J'ai essayé les deux méthodes en R, en régressant sur un DV appelé "Similarité", qui est dans l'intervalle :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Les coefficients des deux modèles sont similaires, tout comme leurs erreurs standard. Le paramètre est également similaire: je suppose que le paramètre Dispersion (tel que rapporté par glm) et ont la relation suivante , auquel cas ils sont respectivement 10.6201 et 10.9254. .
Cependant, aucune de ces valeurs n'est identique.
Est-ce parce que la seule chose qui diffère réellement dans les deux méthodes est leur procédure d'estimation? Ou y a-t-il une différence plus fondamentale qui me manque? Y a-t-il également une raison de préférer une méthode à l'autre?
Réponses:
Vous avez raison de dire que les fonctions de moyenne et de variance sont de la même forme.
Cela suggère que dans de très grands échantillons, tant que vous n'avez pas d'observations très proches de 1 ou 0, ils devraient avoir tendance à donner des réponses assez similaires car dans cette situation, les observations auront des poids relatifs similaires.
Mais dans des échantillons plus petits où certaines des proportions continues approchent des limites, les différences peuvent devenir plus importantes parce que les poids relatifs donnés par les deux approches différeront; si les points qui obtiennent des poids différents sont également relativement influents (plus extrêmes dans l'espace x), les différences peuvent dans certains cas devenir substantielles.
En bêta-régression, vous estimeriez via ML, et dans le cas d'un modèle quasi-binomial - au moins un estimé en R, notez ce commentaire dans l'aide:
Je pense que dans betareg, vous pouvez obtenir des valeurs , et vous pouvez aussi pour les GLM, donc aux deux modèles ajustés, vous pouvez comparer une approximation de l'influence relative (/ "poids") de chaque observation sur sa propre valeur ajustée (puisque les autres composantes du rapport des influences devraient s'annuler, ou presque). Cela devrait donner une idée rapide des observations qui sont considérées le plus différemment par les deux approches. [On pourrait le faire plus exactement en ajustant réellement les observations une par une et en voyant le changement d'ajustement par unité changer de valeur]hii
Notez que la vignette betareg donne une discussion sur le lien entre ces modèles à la fin de la section 2.
la source