Quelles sont les conséquences d'événements rares dans la régression logistique?

9

Je sais que la taille de l'échantillon affecte la puissance dans n'importe quelle méthode statistique. Il existe des règles pour déterminer le nombre d'échantillons dont une régression a besoin pour chaque prédicteur.

J'entends aussi souvent que le nombre d'échantillons dans chaque catégorie dans la variable dépendante d'une régression logistique est important. Pourquoi est-ce?

Quelles sont les conséquences réelles sur le modèle de régression logistique lorsque le nombre d'échantillons dans l'une des catégories est petit (événements rares)?

Existe-t-il des règles empiriques qui intègrent à la fois le nombre de prédicteurs et le nombre d'échantillons à chaque niveau de la variable dépendante?

Génial38
la source
stats.stackexchange.com/questions/306122/… stats.stackexchange.com/questions/178015/… (et beaucoup de questions similaires sans réponse)
kjetil b halvorsen
Je pense que cette référence peut aider. Manel, S., Williams, HC, Ormerod, SJ, 2001. Évaluation des modèles de présence-absence en écologie: la nécessité de tenir compte de la prévalence. J. Appl. Ecol. 38 (5), 921–931. dx.doi.org/10.1046/j.1365-2664.2001.00647.x Il y en a beaucoup plus sur la modélisation des ensembles de données déséquilibrés.
Rafa_Mas

Réponses:

11

La règle générale standard pour la régression linéaire (OLS) est que vous avez besoin d'au moins données par variable ou vous approcherez de la saturation . Cependant, pour la régression logistique, la règle empirique correspondante est que vous voulez données de la catégorie moins courante pour chaque variable. 1015

Le problème ici est que les données binaires ne contiennent tout simplement pas autant d'informations que les données continues. De plus, vous pouvez avoir des prédictions parfaites avec beaucoup de données, si vous n'avez que quelques événements réels. Pour faire un exemple qui est plutôt extrême, mais qui devrait être immédiatement clair, considérons un cas où vous avez et avez donc essayé d'ajuster un modèle avec prédicteurs, mais avec seulement événements. Vous ne pouvez même pas évaluer l'association entre la plupart de vos -variables et . N=300303XY

gung - Réintégrer Monica
la source
2
+1 De plus, avec de rares événements, vous aurez besoin d'un nombre étonnamment élevé de cas pour estimer la véritable interception ( Harrell , à la p. 233, dit que 96 cas au total ont une confiance de 95% d'avoir une probabilité prédite à 0,1 de la valeur vraie lorsqu'elle est vraie) la probabilité est proche de 0 dans un modèle d'interception uniquement), et s'il y a un échantillonnage déséquilibré, vous pourriez avoir besoin d'une correction des événements rares
EdM
1
Des événements rares peuvent donc biaiser l'interception estimée. Les événements rares causent-ils d'autres problèmes spécifiques (incohérence, instabilité, problèmes de convergence lors du calcul du MLE)?
Great38
@ Great38, le problème des "prédictions parfaites" dans cette réponse peut entraîner des problèmes de convergence et des erreurs standard étendues. Voir cet article et d'autres sur l'effet Hauck-Donner ou la séparation parfaite.
EdM
@ Great38, la question est un peu floue. Il n'y a pas vraiment de problème avec des événements rares. Si j'ai données, mais avec 'seulement' événements dans un modèle avec des centaines de prédicteurs, mon taux d'événements est de Mais je ne dois pas m'attendre à avoir de problèmes malgré ma faible proportion de événements et mes centaines de prédicteurs. 10201060.00000000000001
gung - Réintégrer Monica