Pourquoi les modèles «erreur dans X» ne sont-ils pas plus largement utilisés?

11

Lorsque l' on calcule l'erreur - type d'un coefficient de régression, nous ne tenons pas compte du caractère aléatoire dans la matrice de conception X . Dans OLS par exemple, on calcule var(β^) en tant que var((XTX)1XTY)=σ2(XTX)1

Si le X était considéré comme aléatoire, la loi de la variance totale exigerait, en un sens, la contribution supplémentaire de la variance de X également. c'est à dire

var(β^)=var(E(β^|X))+E(var(β^|X)).

Ce qui, si l'estimateur OLS est vraiment sans biais, le premier terme disparaît puisque l'attente est une constante. Le deuxième terme devient en fait: σ2cov(X)1 .

  1. Si un modèle paramétrique pour X est connu, pourquoi ne pas remplacer XTX par l'estimation réelle de la covariance. Par exemple, si X est un traitement randomisé, la variance binomiale E(X)(1E(X)) devrait-elle être une estimation plus efficace?

  2. Pourquoi ne pas envisager d'utiliser des modèles non paramétriques flexibles pour estimer les sources possibles de biais dans l'estimation de l'OLS et tenir correctement compte de la sensibilité au plan (c'est-à-dire la distribution de X ) dans le premier terme de variance de la loi de la variance totale var(E(β^|X)) ?

AdamO
la source
2
Pourquoi une loi mathématique "exige" quelque chose? Nous utilisons un modèle pour raisonner avec des données pour répondre à des objectifs particuliers. Lorsque ceux-ci doivent comprendre ou prédire la réponse conditionnelle basée sur une valeur observée ou mesurée , la variation de X aurait peu (voire rien) à voir avec la question de fond - en effet, l'incorporation de cette variation dans nos procédures semble être tout à fait faux, trompeur, voire absurde. Répondre à votre question semble donc se résumer à évaluer les fréquences avec lesquelles différents types de problèmes statistiques sont rencontrés. X,X
whuber
1
@whuber Je me concentre sur l'inférence. La loi de la variance totale semble être plus conforme à l'interprétation fréquentiste des résultats de l'étude. Nous parlons souvent de "si l'étude était reproduite" ... sans tenir compte du fait que la distribution de pourrait différer si l'étude était reproduite. La balance des sexes pourrait être de 40% dans un échantillon mais de 60% dans un autre simplement comme une conséquence aléatoire de la façon dont l'étude a été obtenue. Ironie du sort, le bootstrap reflète cela , mais ne pas générer une variabilité dans les résultats d'une combinaison particulière de covariables. X
AdamO
2
Tout d'abord, de nombreuses études placent sous contrôle expérimental, donc ce n'est même pas aléatoire. D' autre part, les études d' observation (où X est aléatoire) sont souvent intéressés uniquement par inférence sur la distribution conditionnelle de Y . Ainsi, se concentrer sur l'inférence ne distingue pas une situation de l'autre. Lorsque la distribution (conjointe) complète est intéressante, vous verrez de nombreuses personnes recourir à des formes d'analyse de corrélation ou à diverses procédures multivariées. Il n'y a rien de tel que "le" bootstrap, car dans cette situation, la façon dont vous rééchantillonnez dépend de vos objectifs ainsi que de votre modèle. XXY.
whuber
1
@whuber Le contrôle expérimental est assigné au hasard au point d'entrée de l'étude. Comme je l'ai mentionné, c'est un cas convaincant: disons que la randomisation est Bernoulli. Pourquoi utiliser une estimation empirique de ? Utiliser le maximum de vraisemblance: cov ( X ) = E ( X ) ( 1 - E ( X ) ) ? Vous avez raison au sujet du bootstrap, je faisais référence au bootstrap non paramétrique (inconditionnel) où des "lignes" de données sont échantillonnées avec remplacement. cov(X)=XTXcov(X)=E(X)(1E(X))
AdamO
2
En dehors de cas particuliers et anormaux, peu importe si est aléatoire, ce qui compte c'est s'il y a une erreur de mesure dans X 1 . Si tel est le cas, les méthodes OLS conduiraient à des estimations biaisées et moins puissantes de β 1 . Dans ce cas, des erreurs dans les méthodes des variables doivent être utilisées. X1X1β1
gung - Réintègre Monica

Réponses:

8

Votre question (ainsi que d'autres commentaires dans les commentaires) semble être principalement intéressée par le cas où nous avons un essai contrôlé randomisé où le chercheur attribue au hasard une ou plusieurs des variables explicatives, sur la base d'un plan de randomisation. Dans ce contexte, vous voulez savoir pourquoi nous utilisons un modèle qui traite les variables explicatives comme des constantes connues, plutôt que de les traiter comme des variables aléatoires de la distribution d'échantillonnage imposée par la randomisation. (Votre question est plus large que cela, mais cela semble être le cas de l'intérêt principal dans le commentaire, c'est donc celui que j'aborderai.)

La raison pour laquelle nous conditionnons les variables explicatives, dans ce contexte, est que dans un problème de régression pour un ECR, nous nous intéressons toujours à la distribution conditionnelle de la variable de réponse compte tenu des prédicteurs . En effet, dans un ECR, nous sommes intéressés à déterminer les effets causaux d'une variable explicative X sur la variable de réponse Y , que nous allons déterminer par inférence sur la distribution conditionnelle (sous réserve de certains protocoles pour éviter la confusion). La randomisation est imposée pour briser la dépendance entre la variable explicative X et toute variable confusionnelle potentielle (c'est-à-dire empêcher les associations détournées). Cependant, l'objet de l'inférence dans le problème est toujours la distribution conditionnelle de la variable de réponse compte tenu des variables explicatives. Ainsi, il est toujours logique d'estimer les paramètres de cette distribution conditionnelle, en utilisant des méthodes d'estimation qui ont de bonnes propriétés pour inférer la distribution conditionnelle .

C'est le cas normal qui s'applique à un ECR utilisant des techniques de régression. Bien sûr, il y a des situations où nous avons d'autres intérêts, et nous pourrions en effet vouloir incorporer l'incertitude sur les variables explicatives. L'intégration de l'incertitude dans les variables explicatives se produit généralement dans deux cas:

  • (1) Lorsque nous allons au-delà de l'analyse de régression et dans l'analyse multivariée, nous nous intéressons alors à la distribution conjointe des variables explicatives et de réponse, plutôt qu'à la distribution conditionnelle de ces dernières étant donné la première. Il peut y avoir des applications où cela nous intéresse, et nous irions donc au-delà de l'analyse de régression et incorporerions des informations sur la distribution des variables explicatives.

  • (2) Dans certaines applications de régression, notre intérêt porte sur la distribution conditionnelle de la variable de réponse conditionnelle à une variable explicative sous-jacente non observée, où nous supposons que les variables explicatives observées étaient sujettes à erreur ("erreurs dans les variables"). Dans ce cas, nous incorporons l'incertitude via des "erreurs dans les variables". La raison en est que notre intérêt dans ces cas est dans la distribution conditionnelle , conditionnelle à une variable sous-jacente non observée .

Notez que ces deux cas sont mathématiquement plus compliqués que l'analyse de régression, donc si nous pouvons nous passer de l'analyse de régression, c'est généralement préférable. Dans tous les cas, dans la plupart des applications de l'analyse de régression, l'objectif est de faire une inférence sur la distribution conditionnelle de la réponse, compte tenu des variables explicatives observables, de sorte que ces généralisations deviennent inutiles.


Notez que la randomisation sépare les effets causals des variables confusionnelles à la variable aléatoire, mais elle ne sépare pas les effets causaux de la variable aléatoire aux variables confusionnelles, puis à la réponse. Cela signifie que d'autres protocoles (par exemple, placebos, aveuglement, etc.) peuvent être nécessaires pour rompre complètement toutes les associations de porte dérobée dans une analyse de causalité.

Ben - Réintègre Monica
la source
2
Bonne réponse. J'ajouterais que AFAIK si vous avez des erreurs de variables gaussiennes et une erreur de réponse gaussienne que la méthode de régression normale fonctionne et cela ne devient un problème que si vous a) la réponse observée sans erreur b) avez une distribution de réponse différente
Martin Modrák
2

Le titre "erreurs dans les variables" et le contenu de la question semblent différents, car il demande pourquoi nous ne prenons pas en compte la variation de X lors de la modélisation de la réponse conditionnelle, c'est-à-dire par inférence pour les paramètres de régression. Ces deux préoccupations me semblent orthogonales, donc ici je réponds au contenu.

J'ai déjà répondu à une question similaire: quelle différence y a-t-il entre le conditionnement sur les régresseurs et le fait de les traiter comme fixes? , ici je vais copier une partie de ma réponse là-bas:

J'essaierai d'étoffer un argument pour conditionner les régresseurs un peu plus formellement. Que (Y,X) un vecteur aléatoire, et l' intérêt est en régression Y sur X , où la régression , on entend l'espérance conditionnelle de Y sur X . Sous des hypothèses multinormales, ce sera une fonction linéaire, mais nos arguments ne dépendent pas de cela. Nous commençons par factoriser la densité conjointe de la manière habituelle

f(y,x)=f(yx)f(x)
mais ces fonctions ne sont pas connues, nous utilisons donc un modèle paramétré
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θ paramétrise la distribution conditionnelle etψ la distribution marginale deX . Dans le modèle linéaire normal, nous pouvons avoirθ=(β,σ2) mais cela n'est pas supposé. L'espace complet des paramètres de(θ,ψ) estΘ×Ψ , un produit cartésien, et les deux paramètres n'ont pas de partie commune.

Cela peut être interprété comme une factorisation de l'expérience statistique, (ou du processus de génération de données, DGP), le premier X est généré selon fψ(x) , et comme deuxième étape, Y est généré selon la densité conditionnelle fθ(yX=x) . Notez que la première étape n'utilise aucune connaissance sur θ , qui n'entre que dans la deuxième étape. La statistique X est accessoire pour θ , voir https://en.wikipedia.org/wiki/Ancillary_statistic .

Mais, selon les résultats de la première étape, la deuxième étape pourrait être plus ou moins informative sur θ . Si la distribution donnée par fψ(x) présente une très faible variance, disons que les x observés seront concentrés dans une petite région, il sera donc plus difficile d'estimer θ . Ainsi, la première partie de cette expérience en deux étapes détermine la précision avec laquelle θ peut être estimée. Il est donc naturel de conditionner X=x par inférence sur les paramètres de régression. C'est l'argument de la conditionnalité, et le schéma ci-dessus montre clairement ses hypothèses.

Dans les expériences conçues, son hypothèse se maintiendra principalement, souvent avec des données d'observation non. Voici quelques exemples de problèmes: régression avec des réponses retardées comme prédicteurs. Le conditionnement sur les prédicteurs dans ce cas conditionnera également la réponse! (J'ajouterai plus d'exemples).

§4.3 L'état actuel de la théorie de la décision et la Théorie de Neyman-Pearson .


θXθXθ

Cet argument de séparation est également utile car il pointe vers les cas où il ne peut pas être utilisé, par exemple la régression avec des réponses retardées comme prédicteurs.

kjetil b halvorsen
la source
1
XYθψ
Je ne sais pas pour PLS, mais j'essaierai d'y penser
kjetil b halvorsen
1
Belle réponse! ...
Richard Hardy