Les gens qui travaillent avec la régression logistique connaissent le problème de la séparation parfaite: si vous avez une variable dont les valeurs spécifiques sont associées à un seul des deux résultats (disons un binaire tel que toutes les observations avec ont le résultat = 1 ), la vraisemblance explose et les estimations du maximum de vraisemblance s'écoulent à l'infini. dans R peut ou peut ne pas gérer cela très bien, car le message d'erreur de prédiction parfaite peut apparaître pour des raisons autres que la prédiction / séparation parfaite. dans Stata identifie ces variables et valeurs problématiques et les élimine de l'analyse.glm
logit
Ma question est différente de ce qu'il faut faire si vous avez une séparation parfaite. Que je peux gérer en recodant mes variables (elles sont toutes catégoriques, donc je peux simplement combiner des catégories), ou avec la version Firth de la régression logistique si je veux être fantaisiste.
Au lieu de cela, je me demande quelles sont les façons courantes de décrire cela. J'ai un ensemble de données avec environ 100 patients avec environ 50% de proportion "positive", et certaines catégories de variables démographiques produisent cette prédiction parfaite. Disons simplement que les 7 personnes aux yeux verts ont un résultat "positif". Cela peut être une petite particularité de l'échantillon qui disparaîtrait si j'avais un échantillon de 1000 et 70 personnes aux yeux verts, mais cela peut être cliniquement significatif, car dans cet échantillon plus grand, je pourrais avoir 60 personnes sur 70 aux yeux verts qui auraient un résultat "positif" avec des odds ratios élevés.
Il est donc agréable de dire que j'ai utilisé une méthode bayésienne ou une autre méthode de rétrécissement, mais pour décrire comment j'y suis arrivé, je dois admettre que j'avais une prédiction / séparation parfaite et que je devais trouver une technique plus sophistiquée pour obtenir des résultats à tout. Quelle serait la bonne langue à utiliser ici?
la source
Réponses:
En effectuant mes activités d'excavation sur des questions sans réponse, j'ai trouvé celle-ci très sensible, à laquelle, je suppose, le PO a maintenant trouvé une réponse.
Mais j'ai réalisé que j'avais moi-même diverses questions concernant la question de la séparation parfaite dans la régression logistique, et une recherche (rapide) dans la littérature, ne semblait pas y répondre. J'ai donc décidé de lancer mon propre projet de recherche (probablement en réinventant la roue), et avec cette réponse, je voudrais partager certains de ses résultats préliminaires. Je crois que ces résultats contribuent à comprendre si la question de la séparation parfaite est purement «technique» ou si elle peut être donnée une description / explication plus intuitive.
Ma première préoccupation était de comprendre le phénomène en termes algorithmiques, plutôt qu'en théorie générale: dans quelles conditions l'approche d'estimation du maximum de vraisemblance "s'effondrera" si elle est alimentée par un échantillon de données qui contient un régresseur pour lequel le phénomène de parfait la séparation existe?
Les résultats préliminaires (théoriques et simulés) indiquent que:0
1) Il importe qu'un terme constant soit inclus dans la spécification logit.
2) Il importe que le régresseur en question soit dichotomique (dans l'échantillon) ou non.
3) Si dichotomique, il peut être important qu'il prenne la valeur ou non. 4) Il importe que d'autres régresseurs soient présents ou non dans la spécification. 5) Il importe de combiner les 4 problèmes ci-dessus.
Je vais maintenant présenter un ensemble de conditions suffisantes pour une séparation parfaite pour faire tomber le MLE. Cela n'est pas lié à la question de savoir si les divers logiciels statistiques avertissent du phénomène - ils peuvent le faire en scannant l'échantillon de données avant de tenter d'exécuter une estimation du maximum de vraisemblance. Je m'inquiète des cas où l'estimation du maximum de vraisemblance commencera - et quand elle tombera en panne au cours du processus.
Supposons un modèle de régression logistique à choix binaire «habituel»
La log-vraisemblance pour un échantillon de taille estn
Le MLE sera trouvé en définissant les dérivées égales à zéro. En particulier, nous voulons
La première équation vient de prendre la dérivée par rapport au terme constant, le deuxième à partir de la prise dérivée par rapport à .X
Supposons maintenant que dans tous les cas où nous avons , et que ne prend jamais la valeur lorsque . C'est le phénomène de séparation complète, ou "prédiction parfaite": si l'on observe on sait que . Si nous observons nous savons que . Cela est vrai indépendamment du fait que, en théorie ou dans l'échantillon , soit discret ou continu, dichotomique ou non. Mais aussi, il s'agit d'un phénomène spécifique à l'échantillon - nous ne prétendons pas qu'il retiendra la population. Mais l'échantillon spécifique est ce que nous avons entre nos mains pour alimenter le MLE.y1=1 xi=ak xi ak yi=0 xi=ak yi=1 xi≠ak yi=0 X
Désignons maintenant la fréquence absolue de paryi=1 ny
On peut alors réécrire eq comme(1)
Passant à l'éq. nous avons(2)
en utilisant nous avons(3)
et en utilisant on obtient(4)
Donc: si la spécification contient un terme constant et qu'il existe une séparation parfaite par rapport au régresseur , le MLE tentera de satisfaire, entre autres, eq également.X (5)
Mais notez que la sommation est sur le sous-échantillon où dans lequel par hypothèse. Cela implique ce qui suit: 1) si est dichotomique dans l'échantillon, alors pour tout dans la somme de . 2) Si n'est pas dichotomique dans l'échantillon, mais est soit sa valeur minimale soit sa valeur maximale dans l'échantillon, alors à nouveau pour tout dans la somme en .yi=0 xi≠ak
X (ak−xi)≠0 i (5)
X ak (ak−xi)≠0 i (5)
Dans ces deux cas, et puisque de plus est non négatif par construction, la seule façon dont eq. peut être satisfait lorsque pour tout dans la somme. MaisΛi (5) Λi=0 i
et donc la seule façon dont peut devenir égal à , est si les estimations des paramètres sont telles que . Et puisque est linéaire dans les paramètres, cela implique qu'au moins une des estimations des paramètres doit être "infini": c'est ce que signifie pour le MLE de "décomposer": ne pas produire d'estimations à valeur finie. Les cas 1) et 2) sont donc des conditions suffisantes pour interrompre la procédure MLE.Λi 0 g(β0,xi,zi)→−∞ g()
Mais considérons maintenant le cas où n'est pas dichotomique et n'est pas son minimum ou sa valeur maximale dans l'échantillon. Nous avons encore une séparation complète, une "prédiction parfaite", mais maintenant, dans l'éq. certains des termes seront positifs et certains seront négatifs. Cela signifie qu'il est possible que le MLE puisse satisfaire l'équation. produire des estimations finies pour tous les paramètres. Et les résultats de la simulation confirment qu'il en est ainsi.X ak (5) (ak−xi) (5)
Je ne dis pas qu'un tel échantillon ne crée pas de conséquences indésirables pour les propriétés de l'estimateur, etc.: je note simplement que dans un tel cas, l'algorithme d'estimation fonctionnera comme d'habitude.
De plus, les résultats de la simulation montrent que s'il n'y a pas de terme constant dans la spécification , n'est pas dichotomique mais est une valeur extrême, et qu'il y a d'autres régresseurs présents, encore une fois le MLE fonctionnera - indiquant que la présence du terme constant (dont Les conséquences théoriques que nous avons utilisées dans les résultats précédents, à savoir l'exigence que le MLE satisfasse l'équation ), sont importantes.X ak (1)
la source
glm