J'exécute une régression logistique binaire avec 3 variables numériques. Je supprime l'ordonnée à l'origine dans mes modèles car la probabilité devrait être nulle si toutes les variables d'entrée sont nulles.
Quel est le nombre minimal d'observations à utiliser?
regression
logistic
user333
la source
la source
Réponses:
Il existe un moyen d'arriver à un point de départ solide. Supposons qu'il n'y ait pas de covariables, de sorte que le seul paramètre du modèle est l'ordonnée à l'origine. Quelle est la taille d'échantillon requise pour permettre à l'estimation de l'ordonnée à l'origine d'être suffisamment précise pour que la probabilité prédite se situe à 0,1 de la probabilité vraie avec une confiance de 95%, lorsque l'ordonnée à l'origine est proche de zéro? La réponse est n = 96. Et s'il y avait une covariable, et qu'elle était binaire avec une prévalence de 0,5? Il faudrait 96 sujets avec x = 0 et 96 avec x = 1 pour avoir une limite supérieure sur la marge d'erreur pour estimer Prob [Y = 1 | X = x] ne dépasse pas 0,1. La formule générale de la taille d'échantillon requise pour obtenir une marge d'erreur de dans l'estimation d'une vraie probabilité de au niveau de confiance de 0,95 estδ p n=(1.96δ)2×p(1−p) . Réglez pour le pire des cas.p=0.5
la source
glmnet
pour trouver le prédicteur le plus utile à ce stade?Il n'y a pas vraiment de nombre minimal d'observations. Essentiellement, plus vous avez d'observations, plus les paramètres de votre modèle sont limités par les données et plus le modèle devient sûr. Le nombre d'observations dont vous avez besoin dépend de la nature du problème et du degré de confiance que vous devez avoir dans votre modèle. Je ne pense pas que ce soit une bonne idée de trop s'appuyer sur des «règles de base» pour ce genre de chose, mais utilisez toutes les données que vous pouvez obtenir et inspectez les intervalles de confiance / crédibles sur les paramètres de votre modèle et sur les prévisions.
la source
Mise à jour: je n'ai pas vu le commentaire ci-dessus, par @David Harris, qui est à peu près comme le mien. Désolé. Vous pouvez supprimer ma réponse si elle est trop similaire.
Je secondais Dikran Marsupail et ajoutais mes deux cents.
Tenez compte de vos connaissances antérieures sur les effets que vous attendez de vos variables indépendantes. Si vous attendez de petits effets, vous aurez besoin d'un énorme échantillon. Si les effets devraient être importants, alors un petit échantillon peut faire le travail.
Comme vous le savez peut-être, les erreurs standard sont fonction de la taille de l'échantillon, donc plus la taille de l'échantillon est grande, plus les erreurs standard sont petites. Ainsi, si les effets sont petits, c'est-à-dire proches de zéro, seule une petite erreur standard pourra détecter cet effet, c'est-à-dire montrer qu'il est significativement différent de zéro. En revanche, si l'effet est important (loin de zéro), même une erreur standard importante produira des résultats significatifs.
Si vous avez besoin d'une référence, jetez un œil au blog d'Andrew Gelmans.
la source
Il semble que pour obtenir une estimation acceptable, nous devons appliquer les règles qui ont été examinées par d'autres chercheurs. Je suis d'accord avec les deux règles de base ci-dessus (10 obs pour chaque var. Et la formule de Harrell). Ici, il y a une autre question que les données sont révélées ou une préférence déclarée. Hosmer et Lemeshow dans leur livre ont fourni une règle pour révélé et Louvière et Hensher dans leur livre (Les méthodes de préférence déclarée) ont fourni une règle pour les données de préférence déclarées
la source