La régression bêta (c'est-à-dire GLM avec distribution bêta et généralement la fonction de lien logit) est souvent recommandée pour traiter la réponse aka variable dépendante prenant des valeurs comprises entre 0 et 1, telles que les fractions, les ratios ou les probabilités: régression pour un résultat (rapport ou fraction) entre 0 et 1 .
Cependant, il est toujours affirmé que la régression bêta ne peut pas être utilisée dès que la variable de réponse est égale à 0 ou 1 au moins une fois. Si c'est le cas, il faut soit utiliser un modèle bêta zéro / un gonflé, soit effectuer une certaine transformation de la réponse, etc.: régression bêta des données de proportion, y compris 1 et 0 .
Ma question est: quelle propriété de la distribution bêta empêche la régression bêta de traiter les 0 et les 1 exacts, et pourquoi?
Je suppose que et 1 ne sont pas compatibles avec la distribution bêta. Mais pour tous les paramètres de forme α > 1 et β > 1 , les deux zéro et un sont dans le support de la distribution bêta, il est seulement pour les paramètres de forme plus petites que la distribution tend vers l' infini à une ou deux faces. Et peut-être que les données de l'échantillon sont telles que α et β offrant le meilleur ajustement se révéleraient tous deux supérieurs à 1 .
Cela signifie-t-il que dans certains cas, on pourrait en fait utiliser la régression bêta même avec des zéros / uns?
Bien sûr, même lorsque 0 et 1 sont en faveur de la distribution bêta, la probabilité d'observer exactement 0 ou 1 est nulle. Mais il en est de même de la probabilité d'observer tout autre ensemble de valeurs dénombrable donné, donc cela ne peut pas être un problème, n'est-ce pas? (Cf. ce commentaire de @Glen_b).
Dans le contexte de la régression bêta, la distribution bêta est paramétrée différemment, mais avec elle devrait toujours être bien définie sur [ 0 , 1 ] pour tous les μ .
la source
Réponses:
Parce que la vraisemblance contient à la fois log ( x ) et log ( 1 - x ) , qui sont illimités lorsque x = 0 ou x = 1 . Voir l'équation (4) de Smithson & Verkuilen, « A Better Lemon Squeezer? Régression à probabilité maximale avec des variables dépendantes distribuées bêta » (lien direct vers PDF ).log(x) log(1−x) x=0 x=1
la source
Par conséquent, dans ma compréhension de la régression bêta, les 0 et les 1 correspondraient intuitivement à des résultats sûrs (infinis).
la source