Pourquoi exactement la régression bêta ne peut-elle pas traiter les 0 et les 1 dans la variable de réponse?

17

La régression bêta (c'est-à-dire GLM avec distribution bêta et généralement la fonction de lien logit) est souvent recommandée pour traiter la réponse aka variable dépendante prenant des valeurs comprises entre 0 et 1, telles que les fractions, les ratios ou les probabilités: régression pour un résultat (rapport ou fraction) entre 0 et 1 .

Cependant, il est toujours affirmé que la régression bêta ne peut pas être utilisée dès que la variable de réponse est égale à 0 ou 1 au moins une fois. Si c'est le cas, il faut soit utiliser un modèle bêta zéro / un gonflé, soit effectuer une certaine transformation de la réponse, etc.: régression bêta des données de proportion, y compris 1 et 0 .

Ma question est: quelle propriété de la distribution bêta empêche la régression bêta de traiter les 0 et les 1 exacts, et pourquoi?

Je suppose que et 1 ne sont pas compatibles avec la distribution bêta. Mais pour tous les paramètres de forme α > 1 et β > 1 , les deux zéro et un sont dans le support de la distribution bêta, il est seulement pour les paramètres de forme plus petites que la distribution tend vers l' infini à une ou deux faces. Et peut-être que les données de l'échantillon sont telles que α et β offrant le meilleur ajustement se révéleraient tous deux supérieurs à 1 .01α>1β>1αβ1

Cela signifie-t-il que dans certains cas, on pourrait en fait utiliser la régression bêta même avec des zéros / uns?

Bien sûr, même lorsque 0 et 1 sont en faveur de la distribution bêta, la probabilité d'observer exactement 0 ou 1 est nulle. Mais il en est de même de la probabilité d'observer tout autre ensemble de valeurs dénombrable donné, donc cela ne peut pas être un problème, n'est-ce pas? (Cf. ce commentaire de @Glen_b).

distribution bêta

Dans le contexte de la régression bêta, la distribution bêta est paramétrée différemment, mais avec elle devrait toujours être bien définie sur [ 0 , 1 ] pour tous les μ .ϕ=α+β>2[0,1]μ

entrez la description de l'image ici

amibe dit réintégrer Monica
la source
2
Question interessante! Je n'ai pas d'autre réponse que les points déjà soulevés par Kevin Wright. Je suppose que les zéros exacts et ceux des probabilités sont des cas pathologiques (comme dans la régression logistique), ils ne sont donc pas si intéressants car ils ne devraient pas se produire.
Tim
1
@Tim Eh bien, je ne sais pas si cela devrait ou ne devrait pas arriver, mais cela arrive assez souvent, sinon les gens ne poseraient pas de questions sur la façon de gérer les 0 et les 1 en régression bêta, n'écriraient pas d'articles sur 0- et-1 modèles bêta gonflés, etc. Quoi qu'il en soit, j'espère toujours une réponse plus détaillée que celle de Kevin. Il faut au moins expliquer comment ces termes dans la log-vraisemblance apparaissent.
Amoeba dit Reinstate Monica
1
Mise à jour: c'est probablement parce que si 0 et 1 sont dans le support alors le PDF à ces points est égal à zéro, ce qui signifie que la probabilité d'observer ces valeurs est nulle. Je voudrais toujours voir une réponse expliquant cela attentivement.
Amoeba dit Reinstate Monica
Alors, quelle distribution doit-on utiliser alors lorsque la variable de réponse prend des valeurs dans, disons, ? [0,)
Confondu

Réponses:

16

Parce que la vraisemblance contient à la fois log ( x ) et log ( 1 - x ) , qui sont illimités lorsque x = 0 ou x = 1 . Voir l'équation (4) de Smithson & Verkuilen, « A Better Lemon Squeezer? Régression à probabilité maximale avec des variables dépendantes distribuées bêta » (lien direct vers PDF ).log(x)log(1x)x=0x=1

Kevin Wright
la source
3
Merci. Voici le lien PDF direct vers l'article . Je peux voir que l'Eq. (4) tombera en panne dès que ou y i = 1 , mais je ne comprends toujours pas pourquoi cela se produit dans le schéma général des choses. yi=0yi=1
amibe dit Réintégrer Monica le
3
(+1) Amoeba, il suffit de regarder le pdf: pour chaque distribution bêta, les densités à et 1 sont soit 0 soit + . Dans les deux cas, la probabilité de journalisation ne sera pas définie. De même, dès qu'il y a une seule réponse 0 ou 1 , toutes les valeurs de la vraisemblance ne peuvent être que nulles, infinies ou indéterminées et il y aura un ensemble non trivial de paramètres bêta pour lesquels la valeur minimale de la vraisemblance est réalisée. Ainsi, le calcul pratique est exclu et le modèle n'est pas identifiable (au sens strict). 010+01
blanc
1
01
1
00.5α=β=20.500.50
3
@amoeba La probabilité dépend de la densité de probabilité , pas de la probabilité elle-même. Parfois, on peut éviter ce problème soit en considérant chaque observation comme incluant la probabilité d'un intervalle minuscule mais fini (pas infinitésimal) (déterminé, par exemple , par la précision de la mesure) ou en convoluant les distributions bêta avec une gaussienne très étroite ( ce qui élimine les densités nulles et infinies).
whuber
2

log(x)log(1x) , j'essaierai de compléter la réponse à la question en essayant d'encadrer la raison sous-jacente pour laquelle cela se produit.

pN

Par conséquent, dans ma compréhension de la régression bêta, les 0 et les 1 correspondraient intuitivement à des résultats sûrs (infinis).

meduz
la source