Je veux faire un modèle logistique à partir de mes données d'enquête. Il s'agit d'une petite enquête sur quatre colonies résidentielles dans laquelle seulement 154 répondants ont été interrogés. Ma variable dépendante est «transition satisfaisante vers le travail». J'ai constaté que, sur les 154 répondants, 73 ont déclaré avoir effectué une transition satisfaisante vers le travail, tandis que les autres ne l'ont pas fait. La variable dépendante est donc de nature binaire et j'ai décidé d'utiliser la régression logistique. J'ai sept variables indépendantes (trois continues et quatre nominales). Une ligne directrice suggère qu'il devrait y avoir 10 cas pour chaque prédicteur / variable indépendante (Agresti, 2007). Sur la base de cette ligne directrice, je pense qu'il est correct d'effectuer une régression logistique.
Ai-je raison? Sinon, veuillez me faire savoir comment décider du nombre de variables indépendantes?
1
) et 90 non-cas (les0
), alors la règle dit "n'inclut qu'un seul prédicteur". Mais que se passe-t-il si je modélise le0
's au lieu du1
' s et que je prends ensuite l'inverse des odds ratios estimés? Serais-je autorisé à inclure 9 prédicteurs? Cela n'a aucun sens pour moi.Réponses:
Il y a plusieurs problèmes ici.
En règle générale, nous voulons déterminer une taille d'échantillon minimale afin d'atteindre un niveau de puissance statistique minimalement acceptable . La taille d'échantillon requise est fonction de plusieurs facteurs, principalement l'ampleur de l'effet que vous souhaitez pouvoir différencier de 0 (ou quel que soit le zéro que vous utilisez, mais 0 est le plus courant), et la probabilité minimale d'attraper cet effet vous vouloir avoir. Dans cette perspective, la taille de l'échantillon est déterminée par une analyse de puissance.
Une autre considération est la stabilité de votre modèle (comme le note @cbeleites). En fait, comme le rapport des paramètres estimés au nombre de données se rapproche de 1, votre modèle deviendra saturé, et sera nécessairement être surajustement ( à moins qu'il y est, en fait, pas aléatoire dans le système). La règle empirique du ratio de 1 à 10 vient de cette perspective. Notez qu'avoir une puissance adéquate couvrira généralement cette préoccupation pour vous, mais pas l'inverse.
Cependant, la règle de 1 à 10 vient du monde de la régression linéaire, et il est important de reconnaître que la régression logistique présente des complexités supplémentaires. Un problème est que la régression logistique fonctionne mieux lorsque les pourcentages de 1 et de 0 sont d'environ 50% / 50% (comme @andrea et @psj en discutent dans les commentaires ci-dessus). Une autre question à se préoccuper est la séparation . Autrement dit, vous ne voulez pas que tous vos 1 soient rassemblés à un extrême d'une variable indépendante (ou une combinaison d'entre eux), et tous les 0 à l'autre extrême. Bien que cela semble être une bonne situation, car cela rendrait la prédiction parfaite facile, cela fait exploser le processus d'estimation des paramètres. (@Scortchi a une excellente discussion sur la façon de gérer la séparation dans la régression logistique ici:Comment gérer la séparation parfaite dans la régression logistique? ) Avec plus d'IV, cela devient plus probable, même si la véritable amplitude des effets est maintenue constante, et surtout si vos réponses sont déséquilibrées. Ainsi, vous pouvez facilement avoir besoin de plus de 10 données par IV.
Un dernier problème avec cette règle de base, c'est qu'elle suppose que vos IV sont orthogonaux . Ceci est raisonnable pour les expériences conçues, mais avec des études d'observation telles que la vôtre, vos IV ne seront presque jamais à peu près orthogonaux. Il existe des stratégies pour faire face à cette situation (par exemple, combiner ou abandonner les IV, effectuer d'abord une analyse des principaux composants, etc.), mais si elle n'est pas traitée (ce qui est courant), vous aurez besoin de plus de données.
Une question raisonnable est alors la suivante: quel devrait être votre N minimum et / ou la taille de votre échantillon est-elle suffisante? Pour résoudre ce problème, je vous suggère d'utiliser les méthodes décrites par @cbeleites; s'appuyer sur la règle de 1 à 10 sera insuffisant.
la source
J'utilise généralement une règle de 15: 1 (rapport du min (événements, non-événements) au nombre de paramètres candidats dans le modèle). Des travaux plus récents ont montré que pour une validation plus rigoureuse, 20: 1 est nécessaire. Plus d'informations peuvent être trouvées dans mes documents de cours liés à http://biostat.mc.vanderbilt.edu/rms , en particulier un argument pour une taille d'échantillon minimum de 96 juste pour estimer l'interception. Mais l'exigence de taille d'échantillon est plus nuancée, et un article encore plus récent aborde cette question de manière plus complète.
la source
Habituellement, trop peu de cas ont été écrits. la complexité du modèle (nombre de paramètres) signifie que les modèles sont instables . Donc, si vous voulez savoir si la complexité de votre taille / modèle d'échantillon est OK, vérifiez si vous obtenez un modèle raisonnablement stable.
Il existe (au moins) deux types différents d'instabilité:
Les paramètres du modèle varient beaucoup avec seulement de légères modifications dans les données d'entraînement.
Les prévisions (pour le même cas) de modèles entraînés avec de légères modifications dans les données d'entraînement varient beaucoup.
Vous pouvez mesurer 1. en observant la variation de vos coefficients de modèle si les données d'entraînement sont légèrement perturbées. Un ensemble approprié de modèles peut être calculé, par exemple pendant les procédures de bootstrap ou de validation croisée (itérée).
Pour certains types de modèles ou de problèmes, des paramètres variables n'impliquent pas des prévisions différentes. Vous pouvez vérifier directement l'instabilité 2. en examinant la variation des prédictions pour le même cas (qu'elles soient correctes ou non) calculées lors de la validation hors bootstrap ou itérée.
la source
Il n'y a pas de règles strictes, mais vous pouvez inclure toutes les variables indépendantes tant que les variables nominales n'ont pas trop de catégories. Vous avez besoin d'un "bêta" pour tous sauf un de la classe pour chaque variable nominale. Donc, si une variable nominale était «zone de travail» et que vous avez 30 zones, vous auriez besoin de 29 bêtas.
Une façon de surmonter ce problème consiste à régulariser les bêtas - ou à pénaliser les coefficients importants. Cela permet de vous assurer que votre modèle ne surpasse pas les données. La régularisation L2 et L1 sont des choix populaires.
Une autre question à considérer est la représentativité de votre échantillon. De quelle population voulez-vous faire l'inférence? avez-vous tous les différents types de personnes dans l'échantillon qu'il y a dans la population? il sera difficile de faire une inférence précise si votre échantillon présente des «trous» (par exemple, aucune femme âgée de 35 à 50 ans dans l'échantillon ou aucun travailleur à revenu élevé, etc.)
la source
Voici la réponse réelle du site Web de MedCalc user41466 a écrit à propos de
http://www.medcalc.org/manual/logistic_regression.php
Considérations sur la taille de l'échantillon
Le calcul de la taille de l'échantillon pour la régression logistique est un problème complexe, mais d'après les travaux de Peduzzi et al. (1996), la ligne directrice suivante pour un nombre minimal de cas à inclure dans votre étude peut être suggérée. Soit p la plus petite des proportions de cas négatifs ou positifs dans la population et k le nombre de covariables (le nombre de variables indépendantes), alors le nombre minimum de cas à inclure est: N = 10 k / p Par exemple: vous ont 3 covariables à inclure dans le modèle et la proportion de cas positifs dans la population est de 0,20 (20%). Le nombre minimal de cas requis est N = 10 x 3 / 0,20 = 150 Si le nombre résultant est inférieur à 100, vous devez l'augmenter à 100 comme suggéré par Long (1997).
Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) Une étude de simulation du nombre d'événements par variable dans l'analyse de régression logistique. Journal of Clinical Epidemiology 49: 1373-1379.
la source
Les résultats de tout modèle logistique avec un nombre d'observations par variable indépendante allant d'au moins cinq à neuf sont fiables, surtout si les résultats sont statistiquement significatifs (Vittinghoff et McCulloch, 2007).
Vittinghoff, E. et McCulloch, CE 2007. Assouplissement de la règle de dix événements par variable dans la régression logistique et de Cox. American Journal of Epidemiology, 165 (6): 710–718.
la source