J'essaie de comprendre le concept de surdispersion dans la régression logistique. J'ai lu que la surdispersion se produit lorsque la variance observée d'une variable de réponse est supérieure à celle attendue de la distribution binomiale.
Mais si une variable binomiale ne peut avoir que deux valeurs (1/0), comment peut-elle avoir une moyenne et une variance?
Je suis d'accord avec le calcul de la moyenne et de la variance des succès à partir du nombre x d'essais de Bernoulli. Mais je ne peux pas m'intéresser au concept de moyenne et de variance d'une variable qui ne peut avoir que deux valeurs.
Quelqu'un peut-il fournir un aperçu intuitif de:
- Le concept de moyenne et de variance dans une variable qui ne peut avoir que deux valeurs
- Le concept de surdispersion dans une variable qui ne peut avoir que deux valeurs
Réponses:
Une variable aléatoire binomiale avec essais et une probabilité de succès peut prendre plus de deux valeurs. La variable aléatoire binomiale représente le nombre de succès dans ces essais et peut en fait prendre valeurs différentes ( ). Donc, si la variance de cette distribution est plus grande que ce à quoi on peut s'attendre dans les hypothèses binomiales (il y a peut-être des zéros en excès par exemple), c'est un cas de surdispersion. p N N + 1 0 , 1 , 2 , 3 , . . . , NN p N N+ 1 0,1,2,3,...,N
La surdispersion n'a pas de sens pour une variable aléatoire de Bernoulli ( )N=1
Dans le contexte d'une courbe de régression logistique, vous pouvez considérer qu'une "petite tranche", ou un regroupement, à travers une plage étroite de valeur de prédicteur, est une réalisation d'une expérience binomiale (peut-être que nous avons 10 points dans la tranche avec un certain nombre de succès et échecs). Même si nous n'avons pas vraiment d'essais multiples pour chaque valeur de prédicteur et que nous examinons les proportions au lieu des dénombrements bruts, nous nous attendons toujours à ce que la proportion de chacune de ces «tranches» soit proche de la courbe. Si ces "tranches" ont tendance à être très éloignées de la courbe, il y a trop de variabilité dans la distribution. Ainsi, en regroupant les observations, vous créez des réalisations de variables aléatoires binomiales plutôt que de regarder les données 0/1 individuellement.
L'exemple ci-dessous provient d'une autre question sur ce site. Disons que les lignes bleues représentent la proportion attendue sur la plage des variables prédictives. Les cellules bleues indiquent les cas observés (dans ce cas, les écoles). Ceci fournit une représentation graphique de la façon dont surdispersion peut regarder. Notez qu'il y a des défauts dans l'interprétation des cellules du graphique ci-dessous, mais cela donne une idée de la façon dont la surdispersion peut se manifester.
la source
Comme déjà noté par d'autres, la surdispersion ne s'applique pas dans le cas d'une variable de Bernoulli (0/1), car dans ce cas, la moyenne détermine nécessairement la variance. Dans le contexte de la régression logistique, cela signifie que si votre résultat est binaire, vous ne pouvez pas estimer un paramètre de dispersion. (NB Cela ne signifie pas que vous pouvez ignorer la corrélation potentielle entre les observations simplement parce que votre résultat est binaire!)
Si, d'autre part, votre résultat est un ensemble de proportions, vous pouvez estimer un paramètre de dispersion (qui, bien que souvent supérieur à un, peut également être inférieur à un) en divisant la statistique du chi carré Pearson (ou la déviance ) par les degrés de liberté résiduels.
Rappelez-vous, la régression logistique avec un résultat purement binaire n'est qu'un cas particulier du modèle de régression logistique plus général dans lequel l'indice binomial peut dépasser un (et peut varier selon les observations). Ainsi, la question de savoir si vous ajustez ou non un modèle de régression logistique n'est pas liée à la question de savoir si vos données sont trop dispersées.
la source