Nombre minimum d'observations pour la régression logistique?

9

J'exécute une régression logistique binaire avec 3 variables numériques. Je supprime l'ordonnée à l'origine dans mes modèles car la probabilité devrait être nulle si toutes les variables d'entrée sont nulles.

Quel est le nombre minimal d'observations à utiliser?

user333
la source
10
Vous auriez besoin d'une interception de pour ce faire! Une ordonnée à l'origine de 0 correspond à une probabilité de , et non , lorsque toutes les variables indépendantes sont nulles. 11+exp(0)=1/20
whuber
2
Il y a une discussion connexe ici: la taille de l'échantillon pour la régression logistique .
gung - Rétablir Monica

Réponses:

19

Il existe un moyen d'arriver à un point de départ solide. Supposons qu'il n'y ait pas de covariables, de sorte que le seul paramètre du modèle est l'ordonnée à l'origine. Quelle est la taille d'échantillon requise pour permettre à l'estimation de l'ordonnée à l'origine d'être suffisamment précise pour que la probabilité prédite se situe à 0,1 de la probabilité vraie avec une confiance de 95%, lorsque l'ordonnée à l'origine est proche de zéro? La réponse est n = 96. Et s'il y avait une covariable, et qu'elle était binaire avec une prévalence de 0,5? Il faudrait 96 sujets avec x = 0 et 96 avec x = 1 pour avoir une limite supérieure sur la marge d'erreur pour estimer Prob [Y = 1 | X = x] ne dépasse pas 0,1. La formule générale de la taille d'échantillon requise pour obtenir une marge d'erreur de dans l'estimation d'une vraie probabilité de au niveau de confiance de 0,95 estδpn=(1.96δ)2×p(1p) . Réglez pour le pire des cas.p=0.5

Frank Harrell
la source
J'apprécie votre aide dans ce forum. J'ai ~ 90000 événements et ~ 2000000 non-événements. J'ai besoin d'un modèle logistique avec 65 prédicteurs. Maintenant, comment et combien d'échantillons puis-je prendre. en fait ma question est liée à stats.stackexchange.com/questions/268201/…
SIslam
2
Aucun problème avec l'ajustement de 65 simultanément avec votre taille d'échantillon effective.
Frank Harrell
mais on m'a suggéré qu'un trop grand nombre d'échantillons peut poser problème car je devenais un psudo r au carré aussi bas.
SIslam
3
Est-ce que vous plaisantez? Si le est faible en utilisant un grand échantillon, c'est l'estimation la plus précise du vrai et les observations de baisse n'amélioreront pas la performance du modèle; cela ne fera qu'empirer les choses. Complétez le avec d'autres métriques plus faciles à comprendre telles que l' indice (probabilité de concordance; zone ROC). Et surtout, ignorez tout conseil pour "équilibrer" les fréquences des catégories de résultats. R2R2R2c
Frank Harrell
Dois-je l'utiliser glmnet pour trouver le prédicteur le plus utile à ce stade?
SIslam
9

Il n'y a pas vraiment de nombre minimal d'observations. Essentiellement, plus vous avez d'observations, plus les paramètres de votre modèle sont limités par les données et plus le modèle devient sûr. Le nombre d'observations dont vous avez besoin dépend de la nature du problème et du degré de confiance que vous devez avoir dans votre modèle. Je ne pense pas que ce soit une bonne idée de trop s'appuyer sur des «règles de base» pour ce genre de chose, mais utilisez toutes les données que vous pouvez obtenir et inspectez les intervalles de confiance / crédibles sur les paramètres de votre modèle et sur les prévisions.

Dikran Marsupial
la source
pas de nombre minimum! J'ai ~ 90000 événements et ~ 2000000 non-événements. J'ai besoin d'un modèle logistique avec 65 régresseurs. On me dit que c'est trop d'échantillons, car je prends cet ensemble ~ 90000 événements et ~ 90000 non événements sélectionnés au hasard parmi ~ 2000000, essayez de réduire l'échantillon pendant que les échantillons sont représentatifs. à ce stade, combien d'échantillons puis-je prélever et comment. En fait, je fais référence à stats.stackexchange.com/questions/268201/…
SIslam
3
Non, ne fais pas ça
Frank Harrell
1
Je suis d'accord avec @FrankHarrell (peut-être pour une raison différente?). Le problème de «déséquilibre de classe» a tendance à disparaître à mesure que vous collectez plus de données, et si vous équilibrez artificiellement les données d'entraînement, vous dites au modèle que les fréquences de classe opérationnelle sont de 50 à 50, ce qui n'est probablement pas vrai, et vous finirez classer la classe minoritaire en utilisation opérationnelle. Si vous faites cela, puis post-traitez les probabilités de sortie pour ajuster la différence entre les fréquences de formation et de classe opérationnelle (auquel cas vous obtiendrez probablement essentiellement le même résultat que la formation avec toutes les données).
Dikran Marsupial
0

Mise à jour: je n'ai pas vu le commentaire ci-dessus, par @David Harris, qui est à peu près comme le mien. Désolé. Vous pouvez supprimer ma réponse si elle est trop similaire.

Je secondais Dikran Marsupail et ajoutais mes deux cents.

Tenez compte de vos connaissances antérieures sur les effets que vous attendez de vos variables indépendantes. Si vous attendez de petits effets, vous aurez besoin d'un énorme échantillon. Si les effets devraient être importants, alors un petit échantillon peut faire le travail.

Comme vous le savez peut-être, les erreurs standard sont fonction de la taille de l'échantillon, donc plus la taille de l'échantillon est grande, plus les erreurs standard sont petites. Ainsi, si les effets sont petits, c'est-à-dire proches de zéro, seule une petite erreur standard pourra détecter cet effet, c'est-à-dire montrer qu'il est significativement différent de zéro. En revanche, si l'effet est important (loin de zéro), même une erreur standard importante produira des résultats significatifs.

Si vous avez besoin d'une référence, jetez un œil au blog d'Andrew Gelmans.

Manoel Galdino
la source
1
Le blog de Gelman devient assez gros :-). Vous avez un article en tête?
whuber
@Whuber, vous avez raison, j'aurais dû indiquer quelque chose de plus spécifique. Il a récemment fait des présentations sur les petits effets et les comparaisons multiples, mais je pense que le lien suivant suffit: stat.columbia.edu/~gelman/research/published/power4r.pdf
Manoel Galdino
1
ce lien dans les commentaires est mort et il n'y a aucune référence à un article particulier du blog mentionné
baxx
0

Il semble que pour obtenir une estimation acceptable, nous devons appliquer les règles qui ont été examinées par d'autres chercheurs. Je suis d'accord avec les deux règles de base ci-dessus (10 obs pour chaque var. Et la formule de Harrell). Ici, il y a une autre question que les données sont révélées ou une préférence déclarée. Hosmer et Lemeshow dans leur livre ont fourni une règle pour révélé et Louvière et Hensher dans leur livre (Les méthodes de préférence déclarée) ont fourni une règle pour les données de préférence déclarées

Ahmad
la source
2
Cela bénéficierait d'une explication plus complète et de références complètes et précises.
Nick Cox