Je sais que la taille de l'échantillon affecte la puissance dans n'importe quelle méthode statistique. Il existe des règles pour déterminer le nombre d'échantillons dont une régression a besoin pour chaque prédicteur.
J'entends aussi souvent que le nombre d'échantillons dans chaque catégorie dans la variable dépendante d'une régression logistique est important. Pourquoi est-ce?
Quelles sont les conséquences réelles sur le modèle de régression logistique lorsque le nombre d'échantillons dans l'une des catégories est petit (événements rares)?
Existe-t-il des règles empiriques qui intègrent à la fois le nombre de prédicteurs et le nombre d'échantillons à chaque niveau de la variable dépendante?
logistic
assumptions
rare-events
Génial38
la source
la source
Réponses:
La règle générale standard pour la régression linéaire (OLS) est que vous avez besoin d'au moins données par variable ou vous approcherez de la saturation . Cependant, pour la régression logistique, la règle empirique correspondante est que vous voulez données de la catégorie moins courante pour chaque variable.10 15
Le problème ici est que les données binaires ne contiennent tout simplement pas autant d'informations que les données continues. De plus, vous pouvez avoir des prédictions parfaites avec beaucoup de données, si vous n'avez que quelques événements réels. Pour faire un exemple qui est plutôt extrême, mais qui devrait être immédiatement clair, considérons un cas où vous avez et avez donc essayé d'ajuster un modèle avec prédicteurs, mais avec seulement événements. Vous ne pouvez même pas évaluer l'association entre la plupart de vos -variables et .N=300 30 3 X Y
la source