Lorsque l' on calcule l'erreur - type d'un coefficient de régression, nous ne tenons pas compte du caractère aléatoire dans la matrice de conception . Dans OLS par exemple, on calcule en tant que
Si le était considéré comme aléatoire, la loi de la variance totale exigerait, en un sens, la contribution supplémentaire de la variance de également. c'est à dire
Ce qui, si l'estimateur OLS est vraiment sans biais, le premier terme disparaît puisque l'attente est une constante. Le deuxième terme devient en fait: .
Si un modèle paramétrique pour est connu, pourquoi ne pas remplacer par l'estimation réelle de la covariance. Par exemple, si est un traitement randomisé, la variance binomiale devrait-elle être une estimation plus efficace?
Pourquoi ne pas envisager d'utiliser des modèles non paramétriques flexibles pour estimer les sources possibles de biais dans l'estimation de l'OLS et tenir correctement compte de la sensibilité au plan (c'est-à-dire la distribution de ) dans le premier terme de variance de la loi de la variance totale ?
Réponses:
Votre question (ainsi que d'autres commentaires dans les commentaires) semble être principalement intéressée par le cas où nous avons un essai contrôlé randomisé où le chercheur attribue au hasard une ou plusieurs des variables explicatives, sur la base d'un plan de randomisation. Dans ce contexte, vous voulez savoir pourquoi nous utilisons un modèle qui traite les variables explicatives comme des constantes connues, plutôt que de les traiter comme des variables aléatoires de la distribution d'échantillonnage imposée par la randomisation. (Votre question est plus large que cela, mais cela semble être le cas de l'intérêt principal dans le commentaire, c'est donc celui que j'aborderai.)
La raison pour laquelle nous conditionnons les variables explicatives, dans ce contexte, est que dans un problème de régression pour un ECR, nous nous intéressons toujours à la distribution conditionnelle de la variable de réponse compte tenu des prédicteurs . En effet, dans un ECR, nous sommes intéressés à déterminer les effets causaux d'une variable explicativeX sur la variable de réponse Y , que nous allons déterminer par inférence sur la distribution conditionnelle (sous réserve de certains protocoles pour éviter la confusion). La randomisation est imposée pour briser la dépendance entre la variable explicative X et toute variable confusionnelle potentielle (c'est-à-dire empêcher les associations détournées). †† Cependant, l'objet de l'inférence dans le problème est toujours la distribution conditionnelle de la variable de réponse compte tenu des variables explicatives. Ainsi, il est toujours logique d'estimer les paramètres de cette distribution conditionnelle, en utilisant des méthodes d'estimation qui ont de bonnes propriétés pour inférer la distribution conditionnelle .
C'est le cas normal qui s'applique à un ECR utilisant des techniques de régression. Bien sûr, il y a des situations où nous avons d'autres intérêts, et nous pourrions en effet vouloir incorporer l'incertitude sur les variables explicatives. L'intégration de l'incertitude dans les variables explicatives se produit généralement dans deux cas:
(1) Lorsque nous allons au-delà de l'analyse de régression et dans l'analyse multivariée, nous nous intéressons alors à la distribution conjointe des variables explicatives et de réponse, plutôt qu'à la distribution conditionnelle de ces dernières étant donné la première. Il peut y avoir des applications où cela nous intéresse, et nous irions donc au-delà de l'analyse de régression et incorporerions des informations sur la distribution des variables explicatives.
(2) Dans certaines applications de régression, notre intérêt porte sur la distribution conditionnelle de la variable de réponse conditionnelle à une variable explicative sous-jacente non observée, où nous supposons que les variables explicatives observées étaient sujettes à erreur ("erreurs dans les variables"). Dans ce cas, nous incorporons l'incertitude via des "erreurs dans les variables". La raison en est que notre intérêt dans ces cas est dans la distribution conditionnelle , conditionnelle à une variable sous-jacente non observée .
Notez que ces deux cas sont mathématiquement plus compliqués que l'analyse de régression, donc si nous pouvons nous passer de l'analyse de régression, c'est généralement préférable. Dans tous les cas, dans la plupart des applications de l'analyse de régression, l'objectif est de faire une inférence sur la distribution conditionnelle de la réponse, compte tenu des variables explicatives observables, de sorte que ces généralisations deviennent inutiles.
la source
Le titre "erreurs dans les variables" et le contenu de la question semblent différents, car il demande pourquoi nous ne prenons pas en compte la variation deX lors de la modélisation de la réponse conditionnelle, c'est-à-dire par inférence pour les paramètres de régression. Ces deux préoccupations me semblent orthogonales, donc ici je réponds au contenu.
J'ai déjà répondu à une question similaire: quelle différence y a-t-il entre le conditionnement sur les régresseurs et le fait de les traiter comme fixes? , ici je vais copier une partie de ma réponse là-bas:
J'essaierai d'étoffer un argument pour conditionner les régresseurs un peu plus formellement. Que(Y,X) un vecteur aléatoire, et l' intérêt est en régression Y sur X , où la régression , on entend l'espérance conditionnelle de Y sur X . Sous des hypothèses multinormales, ce sera une fonction linéaire, mais nos arguments ne dépendent pas de cela. Nous commençons par factoriser la densité conjointe de la manière habituelle
f(y,x)=f(y∣x)f(x)
mais ces fonctions ne sont pas connues, nous utilisons donc un modèle paramétré
f(y,x;θ,ψ)=fθ(y∣x)fψ(x)
oùθ paramétrise la distribution conditionnelle etψ la distribution marginale deX . Dans le modèle linéaire normal, nous pouvons avoirθ=(β,σ2) mais cela n'est pas supposé. L'espace complet des paramètres de(θ,ψ) estΘ×Ψ , un produit cartésien, et les deux paramètres n'ont pas de partie commune.
Cela peut être interprété comme une factorisation de l'expérience statistique, (ou du processus de génération de données, DGP), le premierX est généré selon fψ(x) , et comme deuxième étape, Y est généré selon la densité conditionnelle fθ(y∣X=x) . Notez que la première étape n'utilise aucune connaissance sur θ , qui n'entre que dans la deuxième étape. La statistique X est accessoire pour θ , voir https://en.wikipedia.org/wiki/Ancillary_statistic .
Mais, selon les résultats de la première étape, la deuxième étape pourrait être plus ou moins informative surθ . Si la distribution donnée par fψ(x) présente une très faible variance, disons que les x observés seront concentrés dans une petite région, il sera donc plus difficile d'estimer θ . Ainsi, la première partie de cette expérience en deux étapes détermine la précision avec laquelle θ peut être estimée. Il est donc naturel de conditionner X=x par inférence sur les paramètres de régression. C'est l'argument de la conditionnalité, et le schéma ci-dessus montre clairement ses hypothèses.
Dans les expériences conçues, son hypothèse se maintiendra principalement, souvent avec des données d'observation non. Voici quelques exemples de problèmes: régression avec des réponses retardées comme prédicteurs. Le conditionnement sur les prédicteurs dans ce cas conditionnera également la réponse! (J'ajouterai plus d'exemples).
Cet argument de séparation est également utile car il pointe vers les cas où il ne peut pas être utilisé, par exemple la régression avec des réponses retardées comme prédicteurs.
la source