Comment décrire et présenter la question de la séparation parfaite?

8

Les gens qui travaillent avec la régression logistique connaissent le problème de la séparation parfaite: si vous avez une variable dont les valeurs spécifiques sont associées à un seul des deux résultats (disons un binaire tel que toutes les observations avec ont le résultat = 1 ), la vraisemblance explose et les estimations du maximum de vraisemblance s'écoulent à l'infini. dans R peut ou peut ne pas gérer cela très bien, car le message d'erreur de prédiction parfaite peut apparaître pour des raisons autres que la prédiction / séparation parfaite. dans Stata identifie ces variables et valeurs problématiques et les élimine de l'analyse.xx=1glmlogit

Ma question est différente de ce qu'il faut faire si vous avez une séparation parfaite. Que je peux gérer en recodant mes variables (elles sont toutes catégoriques, donc je peux simplement combiner des catégories), ou avec la version Firth de la régression logistique si je veux être fantaisiste.

Au lieu de cela, je me demande quelles sont les façons courantes de décrire cela. J'ai un ensemble de données avec environ 100 patients avec environ 50% de proportion "positive", et certaines catégories de variables démographiques produisent cette prédiction parfaite. Disons simplement que les 7 personnes aux yeux verts ont un résultat "positif". Cela peut être une petite particularité de l'échantillon qui disparaîtrait si j'avais un échantillon de 1000 et 70 personnes aux yeux verts, mais cela peut être cliniquement significatif, car dans cet échantillon plus grand, je pourrais avoir 60 personnes sur 70 aux yeux verts qui auraient un résultat "positif" avec des odds ratios élevés.

Il est donc agréable de dire que j'ai utilisé une méthode bayésienne ou une autre méthode de rétrécissement, mais pour décrire comment j'y suis arrivé, je dois admettre que j'avais une prédiction / séparation parfaite et que je devais trouver une technique plus sophistiquée pour obtenir des résultats à tout. Quelle serait la bonne langue à utiliser ici?

StasK
la source

Réponses:

3

En effectuant mes activités d'excavation sur des questions sans réponse, j'ai trouvé celle-ci très sensible, à laquelle, je suppose, le PO a maintenant trouvé une réponse.
Mais j'ai réalisé que j'avais moi-même diverses questions concernant la question de la séparation parfaite dans la régression logistique, et une recherche (rapide) dans la littérature, ne semblait pas y répondre. J'ai donc décidé de lancer mon propre projet de recherche (probablement en réinventant la roue), et avec cette réponse, je voudrais partager certains de ses résultats préliminaires. Je crois que ces résultats contribuent à comprendre si la question de la séparation parfaite est purement «technique» ou si elle peut être donnée une description / explication plus intuitive.

Ma première préoccupation était de comprendre le phénomène en termes algorithmiques, plutôt qu'en théorie générale: dans quelles conditions l'approche d'estimation du maximum de vraisemblance "s'effondrera" si elle est alimentée par un échantillon de données qui contient un régresseur pour lequel le phénomène de parfait la séparation existe?

Les résultats préliminaires (théoriques et simulés) indiquent que:
1) Il importe qu'un terme constant soit inclus dans la spécification logit.
2) Il importe que le régresseur en question soit dichotomique (dans l'échantillon) ou non.
3) Si dichotomique, il peut être important qu'il prenne la valeur ou non. 4) Il importe que d'autres régresseurs soient présents ou non dans la spécification. 5) Il importe de combiner les 4 problèmes ci-dessus. 0

Je vais maintenant présenter un ensemble de conditions suffisantes pour une séparation parfaite pour faire tomber le MLE. Cela n'est pas lié à la question de savoir si les divers logiciels statistiques avertissent du phénomène - ils peuvent le faire en scannant l'échantillon de données avant de tenter d'exécuter une estimation du maximum de vraisemblance. Je m'inquiète des cas où l'estimation du maximum de vraisemblance commencera - et quand elle tombera en panne au cours du processus.

Supposons un modèle de régression logistique à choix binaire «habituel»

P(Yiβ0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+ziγ

X est le régresseur avec une séparation parfaite, tandis que est une collection d'autres régresseurs qui ne sont pas caractérisés par une séparation parfaite. AussiZ

Λ(g(β0,xi,zi))=11+eg(β0,xi,zi)Λi

La log-vraisemblance pour un échantillon de taille estn

lnL=i=1n[yiln(Λi)+(1yi)ln(1Λi)]

Le MLE sera trouvé en définissant les dérivées égales à zéro. En particulier, nous voulons

(1)i=1n(yiΛi)=0

(2)i=1n(yiΛi)xi=0

La première équation vient de prendre la dérivée par rapport au terme constant, le deuxième à partir de la prise dérivée par rapport à .X

Supposons maintenant que dans tous les cas où nous avons , et que ne prend jamais la valeur lorsque . C'est le phénomène de séparation complète, ou "prédiction parfaite": si l'on observe on sait que . Si nous observons nous savons que . Cela est vrai indépendamment du fait que, en théorie ou dans l'échantillon , soit discret ou continu, dichotomique ou non. Mais aussi, il s'agit d'un phénomène spécifique à l'échantillon - nous ne prétendons pas qu'il retiendra la population. Mais l'échantillon spécifique est ce que nous avons entre nos mains pour alimenter le MLE.y1=1xi=akxiakyi=0xi=akyi=1xiakyi=0X

Désignons maintenant la fréquence absolue de paryi=1ny

(3)nyi=1nyi=yi=1yi

On peut alors réécrire eq comme(1)

(4)ny=i=1nΛi=yi=1Λi+yi=0Λinyyi=1Λi=yi=0Λi

Passant à l'éq. nous avons(2)

i=1nyixii=1nΛixi=0yi=1yiak+yi=0yixiyi=1Λiakyi=0Λixi=0

en utilisant nous avons (3)

nyak+0akyi=1Λiyi=0Λixi=0

ak(nyyi=1Λi)yi=0Λixi=0

et en utilisant on obtient(4)

(5)akyi=0Λixiyi=0Λixi=0yi=0(akxi)Λi=0

Donc: si la spécification contient un terme constant et qu'il existe une séparation parfaite par rapport au régresseur , le MLE tentera de satisfaire, entre autres, eq également. X(5)

Mais notez que la sommation est sur le sous-échantillon où dans lequel par hypothèse. Cela implique ce qui suit: 1) si est dichotomique dans l'échantillon, alors pour tout dans la somme de . 2) Si n'est pas dichotomique dans l'échantillon, mais est soit sa valeur minimale soit sa valeur maximale dans l'échantillon, alors à nouveau pour tout dans la somme en . yi=0xiak
X(akxi)0i(5)
Xak(akxi)0i(5)

Dans ces deux cas, et puisque de plus est non négatif par construction, la seule façon dont eq. peut être satisfait lorsque pour tout dans la somme. MaisΛi(5)Λi=0i

Λi=11+eg(β0,xi,zi)

et donc la seule façon dont peut devenir égal à , est si les estimations des paramètres sont telles que . Et puisque est linéaire dans les paramètres, cela implique qu'au moins une des estimations des paramètres doit être "infini": c'est ce que signifie pour le MLE de "décomposer": ne pas produire d'estimations à valeur finie. Les cas 1) et 2) sont donc des conditions suffisantes pour interrompre la procédure MLE.Λi0g(β0,xi,zi)g()

Mais considérons maintenant le cas où n'est pas dichotomique et n'est pas son minimum ou sa valeur maximale dans l'échantillon. Nous avons encore une séparation complète, une "prédiction parfaite", mais maintenant, dans l'éq. certains des termes seront positifs et certains seront négatifs. Cela signifie qu'il est possible que le MLE puisse satisfaire l'équation. produire des estimations finies pour tous les paramètres. Et les résultats de la simulation confirment qu'il en est ainsi. Xak(5)(akxi)(5)

Je ne dis pas qu'un tel échantillon ne crée pas de conséquences indésirables pour les propriétés de l'estimateur, etc.: je note simplement que dans un tel cas, l'algorithme d'estimation fonctionnera comme d'habitude.

De plus, les résultats de la simulation montrent que s'il n'y a pas de terme constant dans la spécification , n'est pas dichotomique mais est une valeur extrême, et qu'il y a d'autres régresseurs présents, encore une fois le MLE fonctionnera - indiquant que la présence du terme constant (dont Les conséquences théoriques que nous avons utilisées dans les résultats précédents, à savoir l'exigence que le MLE satisfasse l'équation ), sont importantes.Xak(1)

Alecos Papadopoulos
la source
Non, je ne l'ai pas fait, donc la question reste ouverte. Cependant, je devrais vous arrêter directement aux équations normales (1) et (2). Le problème pratique de la séparation parfaite est que l'optimiseur de vraisemblance veut envoyer le à , et par conséquent les probabilités prédites à zéro / un. Vous n'êtes plus à l'intérieur de l'espace des paramètres, donc les équations normales peuvent ne pas fonctionner. De plus, pour les variables continues, je caractériserais une séparation parfaite comme implique et implique , disons, plutôt qu'une égalité exacte à une valeur donnée. g()±xi>aYi=1xiaYi=0
StasK
Les équations normales sont ce que le MLE essaiera de satisfaire - et pour ce faire, il peut certainement envoyer le logit à l'infini. Que voulez-vous dire par "les équations normales peuvent ne pas fonctionner?" Je ne suis pas sûr de comprendre. Concernant les variables continues, oui votre caractérisation de la séparation parfaite est essentiellement en accord avec ce que j'ai trouvé, à savoir que la valeur " " est extrême dans l'échantillon, pour que le MLE se décompose. Vos inégalités décrivent essentiellement la même chose. ak
Alecos Papadopoulos
ML ne fonctionne pas lorsque les conditions de régularité ne sont pas respectées. Voir par exemple ceci .
StasK
1
Je suis d'accord avec toi. Mon message ne conteste pas le contraire. Ce que j'ai essayé de faire était de "prédire" quand l'implémentation réelle de l' algorithme MLE à travers la tentative de satisfaire les conditions habituelles, se décomposerait numériquement sous une séparation parfaite, et quand elle ne le serait pas. Mais mon article ne discute pas de l'utilité / signification des estimations réelles que nous obtiendrons, dans le cas où l'algorithme MLE fournit des résultats, et je l'ai écrit clairement dans mon article. Je vois mes exemples comme un avertissement: "méfiez-vous, même s'il existe une séparation parfaite, ne faites pas confiance à l'algorithme MLE pour vous le dire".
Alecos Papadopoulos
D'ACCORD. Dans cet esprit, c'est une excellente analyse approfondie et une contribution précieuse à notre compréhension de la séparation parfaite. Mais à proprement parler, ce n'est pas une réponse à ma question qui portait sur le signalement du phénomène (et vous le reconnaissez également dans votre réponse). Puis-je également suggérer d'élargir un peu votre réponse et de décrire ce qui se passe avec l'arithmétique de précision finie - (5) sera considéré comme "assez petit" (par exemple, < ou quelque chose comme ça) en valeur absolue , et le logiciel peut heureusement cracher des valeurs non sensuellement grandes (comme dans R le fait, à ma connaissance)? 108glm
StasK