Qu'est-ce que la distribution quasi-binomiale (dans le contexte du GLM)?

30

J'espère que quelqu'un pourra fournir un aperçu intuitif de ce qu'est la distribution quasi-binomiale et de ce qu'elle fait. Je suis particulièrement intéressé par ces points:

  1. En quoi le quasibinôme diffère de la distribution binomiale.

  2. Lorsque la variable de réponse est une proportion (les valeurs d'exemple incluent 0,23, 0,11, 0,78, 0,98), un modèle quasi-binôme s'exécutera en R mais pas un modèle binomial.

  3. Pourquoi les modèles quasi-binomiaux doivent être utilisés lorsqu'une variable de réponse TRUE / FALSE est sur-dispersée.

luciano
la source

Réponses:

20
  1. La différence entre la distribution binomiale et quasi-binomiale est visible dans leurs fonctions de densité de probabilité (pdf), qui caractérisent ces distributions.

    PDF binomial:

    P(X=k)=(nk)pk(1-p)n-k

    PDF quasi binomial:

    P(X=k)=(nk)p(p+kϕ)k-1(1-p-kϕ)n-k

    La distribution quasi-binomiale, bien que similaire à la distribution binomiale, a un paramètre supplémentaire ϕ (limité à |ϕ|min{p/n,(1-p)/n} ) qui tente de décrire variance supplémentaire dans les données qui ne peut pas être expliquée par une distribution binomiale seule.

    (Notez que la moyenne de la distribution quasi-binomiale est Plutôt que lui-même.)pje=0nn!ϕje(n-k)!p

  2. Je ne suis pas sûr sur celui-ci, peut-être que la fonction glm dans R ajoute des poids en mode quasibinomial pour tenir compte de cela?

  3. Le but du paramètre supplémentaire est d'estimer la variance supplémentaire dans les données. Chaque modèle linéaire généralisé (GLM) fait une hypothèse de distribution pour le résultat / réponse et maximise la probabilité des données basées sur cette distribution. C'est un choix que fait l'analyste, et si vous sentez que vous devez tenir compte de plus de variance dans vos données, alors vous pouvez choisir la distirbution quasi binomiale pour modéliser la réponse de votre glm. Un excellent moyen de tester si nous devons ajuster un modèle quasi-binomial au lieu d'un binôme consiste à ajuster un modèle quasi-binomial et tester pour voir si le paramètre est 0.ϕϕ

Alejandro Ochoa
la source
2
Excellent Alejandro, comment puis-je tester si le paramètre ϕ est 0?
Juanchi
2
Notez que dans Ravec glm.fit, binomialet quasibinomialsont exactement les mêmes, sauf que quasibinomial(1) supprime la vérification entière et (2) retourne un AIC de NA. Voir cette réponse pour plus de détails.
miguelmorin
-1 Ce type de distribution "quasi-binomiale" ne semble pas du tout lié aux probabilités quasi-binomiales dans le contexte du glms, il est donc difficile de voir pourquoi il a obtenu autant de votes positifs.
Jarle Tufto
14

Le quasi-binôme n'est pas nécessairement une distribution particulière; il décrit un modèle pour la relation entre la variance et la moyenne dans les modèles linéaires généralisés qui est fois la variance pour un binôme en termes de moyenne pour un binôme.ϕ

Il existe une distribution qui correspond à une telle spécification (la plus évidente - un binôme à l'échelle), mais ce n'est pas nécessairement le but lorsqu'un modèle quasi binomial est ajusté; si vous vous adaptez à des données qui sont toujours 0-1, elles ne peuvent pas être mises à l'échelle binomiale.

Ainsi, le modèle de variance quasi-binomiale, via le paramètre , peut mieux gérer les données pour lesquelles la variance est plus grande (ou, peut-être, plus petite) que celle que vous obtiendriez avec des données binomiales, sans être nécessairement une distribution réelle du tout .ϕ

Lorsque la variable de réponse est une proportion (les exemples de valeurs incluent 0,23, 0,11, 078, 0,98), un modèle quasi-binôme s'exécutera dans R mais pas un modèle binomial

Si je me souviens bien, un modèle binomial peut être exécuté en R avec des proportions *, mais vous devez le configurer correctement.

* il y a trois façons différentes de donner des données binomiales à R que je connaisse. Je suis sûr que c'est un.

Glen_b -Reinstate Monica
la source
Quel est le lien avec l'estimation de la quasi-probabilité?
tim.farkas
2
+1 (mais j'aimerais voir une réponse plus complète!). Les trois façons de configurer le GLM binomial avec des proportions sont probablement les suivantes: stats.stackexchange.com/a/26779/28666 ? Un lien pourrait être utile. En outre, comment ce que vous avez dit à propos du fait que "quasibinomial" n'est pas vraiment une distribution se rapporte-t-il à la deuxième réponse de ce fil?
amibe dit Réintégrer Monica le
1
@amoeba, vous pouvez écrire une distribution pour cela, comme cela a été indiqué dans ma réponse (un binôme à l'échelle), mais cela ne peut pas être une distribution pour les données de comptage (le quasibinôme n'est pas sur tous les entiers sauf si le paramètre de dispersion est 1) ni pour les données continues ( c'est discret!). Les gens l'utilisent généralement pour les données de comptage en raison de sa structure de variance (mais dans ce cas, il n'y a pas une telle distribution dans la famille exponentielle)
Glen_b -Reinstate Monica