Considérons l'échantillonnage des données d'une population de taille de la manière suivante: Pour
Observer individu statut de « maladie » de l »
S'ils ont la maladie, incluez-les dans l'échantillon avec la probabilité
S'ils n'ont pas la maladie, incluez-les avec la probabilité .
Supposons que vous ayez observé une variable de résultat binaire et un vecteur prédicteur , pour sujets échantillonnés de cette façon. La variable de résultat n'est pas le statut de "maladie". Je veux estimer les paramètres du modèle de régression logistique:
Tout ce qui m'importe, ce sont les rapports de cotes (log), . L'interception n'est pas pertinente pour moi.
Ma question est: puis-je obtenir des estimations raisonnables de en ignorant les probabilités d'échantillonnage , et en ajustant le modèle comme si c'était un échantillon aléatoire ordinaire?
Je suis à peu près certain que la réponse à cette question est "oui". Ce que je recherche, c'est une référence qui valide cela.
Il y a deux raisons principales pour lesquelles je suis sûr de la réponse:
J'ai fait de nombreuses études de simulation et aucune d'entre elles ne contredit cela, et
Il est simple de montrer que, si la population est régie par le modèle ci-dessus, alors le modèle régissant les données échantillonnées est
Si les probabilités d'échantillonnage ne dépendaient pas de , cela représenterait un simple passage à l'ordonnée à l'origine et l'estimation ponctuelle de ne serait clairement pas affectée. Mais, si les décalages sont différents pour chaque personne, cette logique ne s'applique pas tout à fait, car vous obtiendrez certainement une estimation ponctuelle différente, bien que je soupçonne que quelque chose de similaire le fait. β
Connexes: L'article classique de Prentice et Pyke (1979) dit que les coefficients de régression logistique d'un cas-témoin (avec le statut de la maladie comme résultat) ont la même distribution que ceux collectés dans une étude prospective. Je soupçonne que ce même résultat s'appliquerait ici, mais je dois avouer que je ne comprends pas parfaitement chaque partie du document.
Merci d'avance pour tous commentaires / références.
Réponses:
Il s'agit d'une variante du modèle de sélection en économétrie. La validité des estimations utilisant uniquement l'échantillon sélectionné ici dépend de la condition que . Ici est le statut de la maladie de . D i iPr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0) Di i
Pour donner plus de détails, définissez les notations suivantes: et ; fait référence à l'événement où trouve dans l'échantillon. De plus, supposons que est indépendant de pour plus de simplicité. π 0 = Pr ( D i = 0 ) S i = 1 i D i X iπ1=Pr(Di=1) π0=Pr(Di=0) Si=1 i Di Xi
La probabilité de pour une unité dans l'échantillon est par la loi de l'exécération itérative. Supposons que, sous réserve de l'état de la maladie et d'autres covariables , le résultat est indépendant de . Par conséquent, i Pr ( Y i = 1 ∣ X i , S i = 1 )Yi=1 i DiXiYiSi Pr ( Y i = 1 ∣ X i , S i = 1 )
Il est tenté d'inclure comme variable explicative supplémentaire et d'estimer le modèle sur la base de . Pour justifier la validité de l'utilisation de , nous devons prouver que , ce qui équivaut à la condition que est une statistique suffisante de . Sans plus d'informations sur votre processus d'échantillonnage, je ne sais pas si c'est vrai. Utilisons une notation abstraite. La variable d'observabilité peut être considérée comme une fonction aléatoire de et des autres variables aléatoires, disonsDi Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di) Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di) Di Si Si Di Zi . Notons . Si
est indépendant de conditionnellement à et , il nous reste
par la définition de l'indépendance. Cependant, si n'est pas indépendant de après conditionnement sur et ,
contient intuitivement des informations pertinentes sur
, et en général, il n'est pas prévu queSi=S(Di,Zi) Zi Yi Xi Di Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) Zi Yi Xi Di Zi Yi Pr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Ainsi, dans le cas «cependant», l'ignorance de la sélection des échantillons pourrait être trompeuse pour l'inférence. Je ne connais pas très bien la littérature sur la sélection d'échantillons en économétrie. Je recommanderais que le chapitre 16 de
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
Variables dépendantes et qualitatives limitées en économétrie est un traitement systématique des problèmes de sélection des échantillons et des résultats discrets.la source