Estimation des coefficients de régression logistique dans un plan cas-témoins lorsque la variable de résultat n'est pas le statut cas / contrôle

10

Considérons l'échantillonnage des données d'une population de taille de la manière suivante: PourNk=1,...,N

  1. Observer individu statut de « maladie » de l »k

  2. S'ils ont la maladie, incluez-les dans l'échantillon avec la probabilitépk1

  3. S'ils n'ont pas la maladie, incluez-les avec la probabilité .pk0

Supposons que vous ayez observé une variable de résultat binaire et un vecteur prédicteur , pour sujets échantillonnés de cette façon. La variable de résultat n'est pas le statut de "maladie". Je veux estimer les paramètres du modèle de régression logistique:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

Tout ce qui m'importe, ce sont les rapports de cotes (log), β . L'interception n'est pas pertinente pour moi.

Ma question est: puis-je obtenir des estimations raisonnables de β en ignorant les probabilités d'échantillonnage {pi1,pi0} , i=1,...,n et en ajustant le modèle comme si c'était un échantillon aléatoire ordinaire?


Je suis à peu près certain que la réponse à cette question est "oui". Ce que je recherche, c'est une référence qui valide cela.

Il y a deux raisons principales pour lesquelles je suis sûr de la réponse:

  1. J'ai fait de nombreuses études de simulation et aucune d'entre elles ne contredit cela, et

  2. Il est simple de montrer que, si la population est régie par le modèle ci-dessus, alors le modèle régissant les données échantillonnées est

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

Si les probabilités d'échantillonnage ne dépendaient pas de , cela représenterait un simple passage à l'ordonnée à l'origine et l'estimation ponctuelle de ne serait clairement pas affectée. Mais, si les décalages sont différents pour chaque personne, cette logique ne s'applique pas tout à fait, car vous obtiendrez certainement une estimation ponctuelle différente, bien que je soupçonne que quelque chose de similaire le fait. βiβ

Connexes: L'article classique de Prentice et Pyke (1979) dit que les coefficients de régression logistique d'un cas-témoin (avec le statut de la maladie comme résultat) ont la même distribution que ceux collectés dans une étude prospective. Je soupçonne que ce même résultat s'appliquerait ici, mais je dois avouer que je ne comprends pas parfaitement chaque partie du document.

Merci d'avance pour tous commentaires / références.

Macro
la source
1
Vous dites que "la variable de résultat n'est pas l' état de la maladie ". Qu'est-ce que indique? Bienvenue à CV, btw. Yi=1
gung - Réintégrer Monica
1
Yi est une variable différente. Ce que je veux dire, c'est que la variable qui dicte votre probabilité d'échantillonnage (généralement l'état de la maladie dans un cas témoin) n'est pas la même que la variable de résultat - pensez à l'analyse secondaire d'un ensemble de données. Par exemple, supposons que l'échantillon a été généré en échantillonnant systématiquement les consommateurs de drogues et un ensemble supplémentaire (fréquence assortie, par rapport à certaines covariables) de non-consommateurs de drogues, mais la variable de résultat que vous étudiez est une autre mesure comportementale. Dans ce cas, le plan d'échantillonnage est une nuisance. Merci, btw!
Macro

Réponses:

8

Il s'agit d'une variante du modèle de sélection en économétrie. La validité des estimations utilisant uniquement l'échantillon sélectionné ici dépend de la condition que . Ici est le statut de la maladie de . D i iPr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

Pour donner plus de détails, définissez les notations suivantes: et ; fait référence à l'événement où trouve dans l'échantillon. De plus, supposons que est indépendant de pour plus de simplicité. π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

La probabilité de pour une unité dans l'échantillon est par la loi de l'exécération itérative. Supposons que, sous réserve de l'état de la maladie et d'autres covariables , le résultat est indépendant de . Par conséquent, i Pr ( Y i = 1 X i , S i = 1 )Yi=1i DiXiYiSi Pr ( Y i = 1 X i , S i = 1 )

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSiPr(D i =1S i =1)= π 1 p i 1
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
Il est facile de voir que Ici et sont tels que définis votre schéma d'échantillonnage. Donc, pi1pi0Pr(Yi=1Xi,Si=1)=π1pi1
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
Si , nous avons et vous pouvez omettre le problème de sélection d'échantillon. En revanche, si , en général. Dans un cas particulier, considérons le modèle logit, Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
Même lorsque et sont constants sur , la distribution résultante ne conservera pas la formation logit. Plus important encore, les interprétations des paramètres seraient totalement différentes. Espérons que les arguments ci-dessus aident à clarifier un peu votre problème.pi1pi0i

Il est tenté d'inclure comme variable explicative supplémentaire et d'estimer le modèle sur la base de . Pour justifier la validité de l'utilisation de , nous devons prouver que , ce qui équivaut à la condition que est une statistique suffisante de . Sans plus d'informations sur votre processus d'échantillonnage, je ne sais pas si c'est vrai. Utilisons une notation abstraite. La variable d'observabilité peut être considérée comme une fonction aléatoire de et des autres variables aléatoires, disonsDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi . Notons . Si est indépendant de conditionnellement à et , il nous reste par la définition de l'indépendance. Cependant, si n'est pas indépendant de après conditionnement sur et , contient intuitivement des informations pertinentes sur , et en général, il n'est pas prévu queSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di) . Ainsi, dans le cas «cependant», l'ignorance de la sélection des échantillons pourrait être trompeuse pour l'inférence. Je ne connais pas très bien la littérature sur la sélection d'échantillons en économétrie. Je recommanderais que le chapitre 16 de Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookVariables dépendantes et qualitatives limitées en économétrie est un traitement systématique des problèmes de sélection des échantillons et des résultats discrets.

semibruin
la source
2
Merci. C'est une excellente réponse et est parfaitement logique. Dans mon application, l'hypothèse que n'est pas réaliste. Mais, il serait tout aussi bon d'ajouter comme prédicteur et de considérer la distribution . En utilisant une dérivation similaire, je pense que vous pouvez montrer que si , alors tout va bien. C'est une hypothèse raisonnable dans mon cas. Qu'est-ce que tu penses? BTW, auriez-vous des références qui mentionnent ce problème? Je ne connais pas la littérature économétrique. P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
Macro
Je suis à l'aise de penser que le processus de sélection est un procès bernoulli, c'est-à-dire Sous cette hypothèse de génération de données, cet essai bernoulli est conditionnellement indépendant de , donc je pense que nous allons bien. J'apprécie vos efforts et vos connaissances sur ce problème et j'accepte la réponse. En supposant que personne ne vient avec la référence exacte que je recherche (je préfère être en mesure de simplement "citer" ce problème plutôt que de m'éloigner d'une discussion approfondie), je vous attribuerai également la prime. À votre santé. Y i
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
Macro
Ce processus de sélection correspond à votre stratégie. Sur la base d'un tel problème de sélection, votre problème devient un exemple de manque au hasard (MAR) dans la littérature des données manquantes. Merci pour votre récompense.
semibruin