Calcul des poids de probabilité inverses - estimation conditionnelle (multivariée) de la densité?

8

La version générale:

J'ai besoin d'estimer où et sont continus et multivariés. Je préfère le faire de manière non paramétrique, car je n'ai pas une bonne forme fonctionnelle en tête et doit être quelque chose comme impartial. Je voulais utiliser un estimateur conditionnel de densité du noyau, mais je me suis aperçu que je aurais besoin quantiser d' abord. Ensuite, j'ai eu l'idée d'estimer et partir des données et de l'utiliser pour calculer , ou peut-être que je l'ai lu quelque part et ne me souviens pas où.F(UNE|X)UNEXF^(UNE|X)XF^(UNE,X)F^(X)F^(UNE|X)

Y a-t-il une raison pour laquelle cette procédure ne serait pas valide? Existe-t-il une approche meilleure ou plus honnête que la densité du noyau? De plus, y a-t-il un problème avec l'estimation non-paramétrique des densités de population à partir des densités d'échantillonnage? Les données sont des données d'enquête, et j'ai des poids d'enquête; dois-je les intégrer d'une manière ou d'une autre?


La version spécifique au cas:

Il convient probablement de mentionner que je vais utiliser ces estimations pour les poids de probabilité inverse de traitement dans un modèle structurel marginal, comme dans Robins (2000) ( PDF non fermé ). J'observe une séquence de "traitements" et une séquence de facteurs de confusion variant dans le temps par rapport à certains résultat qui se produit à . J'ai émis l'hypothèse d'une relation causale paramétrique simple, , mais comme il y a un facteur de confusion variant dans le temps{unet}t=04{Xt}t=04y~t=T+1E[Oui~|une]=βuneβest une estimation biaisée de l '"effet de traitement moyen", et le facteur de confusion ne peut pas être ajouté en tant que régresseur, car il est sur le chemin causal et cela biaisera également . Heureusement, Doc Robins a compris que je pouvais obtenir des estimations impartiales / non fondées et raisonnablement efficaces si je repondais mes observations par: β

wje=s=04F(unes|unes<t)F(unes|unes<t,Xs<t)

Ma question: cette séquence de poids est vraiment ce pour quoi j'ai besoin d'une estimation. Robins recommande une régression logistique. Mais réside dans , est mesuré sur , et à toutes fins pratiques réside dans un sous-ensemble fini de celui-ci. réside dans un intervalle fermé, mais uniquement parce que c'est vraiment la moyenne de quelques variables, chacune mesurée sur un sous-ensemble fini de .unet[0,)7{0,}7Xt{0,,12}

J'ai donc eu quelques idées:

  1. Estimer et non paramétriqueF(unet,unes<t,Xs<t)F(X,unes<t)
  2. Estimer avec régression bêta et non paramétriqueF(unet|unes<t,Xs<t)F(Xs<t,unes<t)
  3. Estimer avec une régression bêta, et estimer ) en "enchaînant" les régressions bêta dans le temps pour exprimer le tout comme conditionnel.F(Xt-1|unet,unes<t,Xs<(t-1))F(unet,unes<t,Xs<(t-1))
  4. Quelque chose de réellement cohérent et honnête dans la propagation de l'incertitude, auquel je n'ai évidemment pas pensé.
  5. Bayes? Je connais Stan et JAGS, mais MCMC va probablement exploser mon ordinateur (je ne veux pas traiter avec EC2).

Je n'ai trouvé aucun indice dans la littérature, car les traitements multivariés sont rares dans la modélisation causale. Que devrais-je faire?

Points bonus: que pensez-vous de la notation pour représenter au lieu de quelque chose comme ?unes<t{unes}s=0tunet-1

shadowtalker
la source

Réponses:

10

L'idée de base

Selon Chen, Linton et Robinson (2001) , la technique "par défaut" pour l'estimation conditionnelle de densité de noyau univariée consiste à trouver, pour les bandes passantes , une,b,c

F^uneb(y,z)F^c(z)=F^unebc(y|z)

Ensuite, avec la bande passante du numérateur et la bande passante du dénominateur et , le résultat de la limite centrale suivante tient sous certaines hypothèses d'indépendance et de cohérence (qui ne sont vraiment restrictives que lorsque ): (une,b)cune=b=cy=Xt,z=Xt-1

nune2(F^unebc=uneuneune(y|z)-F(y|z))N(0,V)

V^=(K(u)2u)2F^uneuneune(y|z)F^une(z)=(K(u)2u)2F^uneune(y,z)

Bien que je n'aie jamais vu un modèle pondéré fréquentiste (même WLS intro-stats) essayer de tenir compte de la variance des poids estimés. Pour l'instant, je vais suivre cette convention, mais si j'obtiens des résultats ici, je vais voir si je peux l'intégrer dans un modèle entièrement bayésien qui propagera l'incertitude plus honnêtement. Alors oui, estimer la densité conditionnelle en estimant les densités conjointe et marginale est une procédure standard.

Applicabilité à mon cas

On ne voit pas clairement dans cet article comment cela se généralise au cas où, lorsque y=Xt et z=(Xs)s=1t-1, et Xs=(Xs,1Xs,). Mais je suppose que c'est vraiment la même chose qu'une grande séquence longueX=((Xs,)=1)s=1t-1ce qui semble parfaitement gérable selon Robinson (1983) (cité dans Chen, et al). Encore une fois, l'utilisation de la règle de Bayes pour estimer la densité conditionnelle semble parfaitement acceptable.

Bande passante

Le dernier problème est la sélection de la bande passante. La bande passante est maintenant une matrice de blocs de la forme

B=(Bnumerunetor00Benomjenunetor)=((une1,1B1numB2numunet,)00(c1,1B1enomB2enomct-1,))

ce qui est un gâchis. Lorsque la bande passanteH=hH0 tel que |H0|=1, puis bN4+, mais ce résultat s'appliquerait séparément aux Bnum et Benom plutôt que de Bdans son ensemble ( source , notes de cours de quelqu'un).

Chen et al trouvent une bande passante optimale une=b=c(dans leur cas 2D) pour un niveau dez qui semble généraliser au cas où y et zsont multivariées. Ils suggèrent de mettrez=μμ est la moyenne théorique qui serait induite par la normalité conjointe, et ils dérivent une^(μ).

Une version plus générale du même résultat se trouve dans une autre section de ces notes de cours, appelée bande passante «règle générale». Ils dérivent également une bande passante optimale en fonction d'une procédure générale de validation croisée.

Calcul

J'ai un traitement en 7 dimensions sur 3 périodes, j'ai donc une densité jusqu'à 21 dimensions à estimer. Et j'ai oublié les covariables de base. J'ai quelque chose comme 30 covariables de base, donc je finirais par essayer d'estimer une distribution en 51 dimensions, une distribution en 44 dimensions et une distribution en 37 dimensions. Et cela sans oublier que l'extrême dimensionnalité nécessitera un échantillon incroyablement grand. Scott et Wand (1991) rapportent qu'un échantillon de 50 dans une dimension équivaut à bien plus d'un million dans 8 dimensions ... aucune mention de 30. Aucun de ceux - ci ne peut exprimer ce que je ressens en ce moment.

Conclusion

J'ai donc perdu une semaine de ma vie là-dessus. Tant pis. Au lieu de cela, je vais utiliser MCMC pour ajuster simultanément le traitement paramétrique et les modèles de résultats, de sorte que les poids IPT finissent par être fonction des densités prédictives postérieures du modèle de traitement. Ensuite, je vais parcourir les formes linéaires, quadratiques et cubiques pour le modèle de traitement et voir laquelle correspond le mieux.

shadowtalker
la source
6
"Alors j'ai perdu une semaine de ma vie là-dessus." C'est ce qu'on appelle l'apprentissage et la recherche. En tant qu'étudiant en master, vous devriez embrasser cela car il y a plus comme ça à venir. Il n'y a généralement pas de raccourcis dans la recherche car souvent personne ne connaît le chemin!
Momo