Surdispersion dans la régression logistique

14

J'essaie de comprendre le concept de surdispersion dans la régression logistique. J'ai lu que la surdispersion se produit lorsque la variance observée d'une variable de réponse est supérieure à celle attendue de la distribution binomiale.

Mais si une variable binomiale ne peut avoir que deux valeurs (1/0), comment peut-elle avoir une moyenne et une variance?

Je suis d'accord avec le calcul de la moyenne et de la variance des succès à partir du nombre x d'essais de Bernoulli. Mais je ne peux pas m'intéresser au concept de moyenne et de variance d'une variable qui ne peut avoir que deux valeurs.

Quelqu'un peut-il fournir un aperçu intuitif de:

  1. Le concept de moyenne et de variance dans une variable qui ne peut avoir que deux valeurs
  2. Le concept de surdispersion dans une variable qui ne peut avoir que deux valeurs
luciano
la source
1
Ajoutez 20 valeurs de , où 10 sont et 10 sont . Pouvez-vous diviser cela par 20? Pouvez-vous calculer le sd ? 0 1 yy01y
Sycorax dit Réintégrer Monica
Bien dit donc je pense que c'est la moyenne = 0,5, l'écart type = 0,11.
luciano
Disons que ma variable de réponse a eu 100 succès et 5 échecs. Est-ce susceptible d'être sur-dispersé?
luciano
luciano, vous avez besoin de plus d'une réalisation de l'expérience pour déterminer si elle est trop dispersée.
Underminer

Réponses:

10

Une variable aléatoire binomiale avec essais et une probabilité de succès peut prendre plus de deux valeurs. La variable aléatoire binomiale représente le nombre de succès dans ces essais et peut en fait prendre valeurs différentes ( ). Donc, si la variance de cette distribution est plus grande que ce à quoi on peut s'attendre dans les hypothèses binomiales (il y a peut-être des zéros en excès par exemple), c'est un cas de surdispersion. p N N + 1 0 , 1 , 2 , 3 , . . . , NNpNN+10,1,2,3,...,N

La surdispersion n'a pas de sens pour une variable aléatoire de Bernoulli ( )N=1

Dans le contexte d'une courbe de régression logistique, vous pouvez considérer qu'une "petite tranche", ou un regroupement, à travers une plage étroite de valeur de prédicteur, est une réalisation d'une expérience binomiale (peut-être que nous avons 10 points dans la tranche avec un certain nombre de succès et échecs). Même si nous n'avons pas vraiment d'essais multiples pour chaque valeur de prédicteur et que nous examinons les proportions au lieu des dénombrements bruts, nous nous attendons toujours à ce que la proportion de chacune de ces «tranches» soit proche de la courbe. Si ces "tranches" ont tendance à être très éloignées de la courbe, il y a trop de variabilité dans la distribution. Ainsi, en regroupant les observations, vous créez des réalisations de variables aléatoires binomiales plutôt que de regarder les données 0/1 individuellement.

L'exemple ci-dessous provient d'une autre question sur ce site. Disons que les lignes bleues représentent la proportion attendue sur la plage des variables prédictives. Les cellules bleues indiquent les cas observés (dans ce cas, les écoles). Ceci fournit une représentation graphique de la façon dont surdispersion peut regarder. Notez qu'il y a des défauts dans l'interprétation des cellules du graphique ci-dessous, mais cela donne une idée de la façon dont la surdispersion peut se manifester.

Exemple de dispersion excessive

Underminer
la source
1
Mais je m'intéresse à la surdispersion dans le contexte de la régression logistique. Pour chaque valeur d'une variable prédictive en régression logistique, il n'y a pas n essais, il n'y a qu'un seul essai. Et le résultat de cet essai est soit un succès, soit un échec
luciano
Je viens d'ajouter un paragraphe pour répondre à l'intuition derrière la surdispersion dans le contexte de la régression linéaire.
Underminer
1
Underminer, j'essaie d'imaginer ce que vous entendez par cette phrase: "Si ces" tranches "ont tendance à être loin de la courbe, il y a trop de variabilité dans la distribution". Voici ce que je pense que vous voulez dire: à la tranche de la courbe où il y a, disons, une probabilité de succès de 0,1-0,3, il y a beaucoup de succès et à la tranche de la courbe où il y a, disons, une probabilité de succès de 0,7-0,9, il y a beaucoup d'échecs. Est-ce ce que vous voulez dire et cela représenterait-il une surdispersion?
luciano
1
@luciano C'est la bonne idée. Mais gardez à l'esprit qu'il doit y avoir un équilibre de «tranches» qui sont trop loin au-dessus et trop loin au-dessous de la courbe pour que l'ajustement se soit produit en premier lieu. Donc, il peut être plus réaliste de dire qu'une tranche autour de 0,7 a trop de succès (peut-être 100%) et la tranche suivante autour de 0,75 a trop peu (50%) puis 0,80 en a trop (100%), etc. plus de variance observée que prévu.
Underminer
Je t'ai bien expliqué
luciano
7

Comme déjà noté par d'autres, la surdispersion ne s'applique pas dans le cas d'une variable de Bernoulli (0/1), car dans ce cas, la moyenne détermine nécessairement la variance. Dans le contexte de la régression logistique, cela signifie que si votre résultat est binaire, vous ne pouvez pas estimer un paramètre de dispersion. (NB Cela ne signifie pas que vous pouvez ignorer la corrélation potentielle entre les observations simplement parce que votre résultat est binaire!)

Si, d'autre part, votre résultat est un ensemble de proportions, vous pouvez estimer un paramètre de dispersion (qui, bien que souvent supérieur à un, peut également être inférieur à un) en divisant la statistique du chi carré Pearson (ou la déviance ) par les degrés de liberté résiduels.

Rappelez-vous, la régression logistique avec un résultat purement binaire n'est qu'un cas particulier du modèle de régression logistique plus général dans lequel l'indice binomial peut dépasser un (et peut varier selon les observations). Ainsi, la question de savoir si vous ajustez ou non un modèle de régression logistique n'est pas liée à la question de savoir si vos données sont trop dispersées.

Phil Schumm
la source