Quelle est la différence entre le conditionnement sur les régresseurs et leur traitement comme fixe?

9

Parfois, nous supposons que les régresseurs sont fixes, c'est-à-dire qu'ils ne sont pas stochastiques. Je pense que cela signifie que tous nos prédicteurs, estimations de paramètres, etc. sont inconditionnels alors, non? Puis-je même aller si loin que ce ne sont plus des variables aléatoires?

Si, d'un autre côté, nous acceptons que la plupart des régresseurs en économie disent qu'ils sont stochastiques car aucune force extérieure ne les a déterminés avec une certaine expérience en tête. Les économétriciens conditionnent ensuite ces régresseurs stochastiques.

En quoi est-ce différent de les traiter comme fixes?

Je comprends ce qu'est le conditionnement. Mathématiquement, cela signifie que nous subordonnons toutes les observations et inférences à cet ensemble particulier de régresseurs et n'avons aucune ambition de dire que les inférences, les estimations des paramètres, les estimations de la variance, etc. auraient été les mêmes si nous avions vu une réalisation différente de nos régresseurs (tel est le cas). le nœud de la série chronologique, où chaque série chronologique n'est vue qu'une seule fois).

Cependant, pour vraiment comprendre la différence entre les régresseurs fixes et le conditionnement sur les régresseurs stochastiques, je me demande si quelqu'un ici connaît un exemple de procédure d'estimation ou d'inférence qui est valable pour les régresseurs fixes par exemple, mais se décompose quand ils sont stochastiques (et être conditionnée).

J'ai hâte de voir ces exemples!

Hirek
la source
2
Connaissez-vous les modèles d'erreur dans les variables?
robin.datadrivers
Hé @ robin.datadrivers non, je ne le suis pas vraiment.
Hirek du
1
Ce sont des modèles spécialement conçus pour ajuster les estimations de l'erreur de mesure dans les variables indépendantes. Pas tout à fait la même chose que les régresseurs stochastiques, mais il pourrait vous être utile d'y jeter un coup d'œil. De plus, la recherche par enquête en général suppose souvent que les variables indépendantes collectées par les enquêtes comportent une erreur d'échantillonnage - il existe probablement des modèles qui expliquent l'erreur d'échantillonnage.
robin.datadrivers
1
Une autre pensée que j'ai rencontrée était d'utiliser des modèles bayésiens. Les modèles bayésiens peuvent traiter les régresseurs comme aléatoires, en spécifiant une distribution préalable pour eux. En règle générale, s'ils sont traités comme fixes, vous spécifiez une distribution antérieure uniquement pour les paramètres (coefficients, moyennes, variances), mais lorsque vous manquez des covariables ou des résultats, vous spécifiez une distribution antérieure pour eux. Je ne sais pas exactement comment je l'implémenterais sans plus de réflexion, mais il y a peut-être un moyen de spécifier une distribution préalable pour chaque variable indépendante.
robin.datadrivers

Réponses:

3

Ici, je suis sur de la glace mince, mais laissez-moi essayer: j'ai le sentiment (veuillez commenter!) Que la principale différence entre les statistiques et l'économétrie est qu'en statistiques, nous avons tendance à considérer les régresseurs comme fixes, d'où la matrice de conception terminologique qui provient évidemment de conception d'expériences, où l'on suppose que nous choisissons d' abord puis fixons les variables explicatives.

Mais pour la plupart des ensembles de données, la plupart des situations, c'est un mauvais ajustement. Nous observons vraiment les variables explicatives et, en ce sens, elles se situent sur le même pied que les variables de réponse, elles sont toutes deux déterminées par un processus aléatoire hors de notre contrôle. En considérant les comme «fixes», nous décidons de ne pas considérer beaucoup de problèmes que cela pourrait causer. x

En considérant les régresseurs comme stochastiques, en revanche, comme les économétriciens ont tendance à le faire, nous ouvrons la possibilité d'une modélisation qui tente de considérer de tels problèmes. Une courte liste de problèmes que nous pourrions alors considérer et intégrer dans la modélisation est la suivante:

  • erreurs de mesure dans les régresseurs
  • corrélations entre les régresseurs et les termes d'erreur
  • réponse retardée en tant que régresseur
  • ...

Probablement, cela devrait être fait beaucoup plus fréquemment que cela se fait aujourd'hui?

EDIT 

J'essaierai d'étoffer un argument pour conditionner les régresseurs de manière un peu plus formelle. Que un vecteur aléatoire, et l' intérêt est en régression sur , où la régression , on entend l'espérance conditionnelle de sur . Sous des hypothèses multinormales, ce sera une fonction linéaire, mais nos arguments ne dépendent pas de cela. Nous commençons par factoriser la densité conjointe de la manière habituelle mais ces fonctions ne sont pas connues, nous utilisons donc un modèle paramétré où paramètre la distribution conditionnelle et(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψla distribution marginale de . Dans le modèle linéaire normal, nous pouvons avoir mais cela n'est pas supposé. L'espace de paramètres complet de est , un produit cartésien, et les deux paramètres n'ont aucune partie en commun.Xθ=(β,σ2)(θ,ψ)Θ×Ψ

Cela peut être interprété comme une factorisation de l'expérience statistique, (ou du processus de génération de données, DGP), le premier est généré selon , et comme deuxième étape, est généré selon la densité conditionnelle . Notez que la première étape n'utilise aucune connaissance sur , qui n'entre que dans la deuxième étape. La statistique est accessoire pour , voir https://en.wikipedia.org/wiki/Ancillary_statistic .Xfψ(x)Yfθ(yX=x)θXθ

Mais, selon les résultats de la première étape, la deuxième étape pourrait être plus ou moins informative sur . Si la distribution donnée par a une très faible variance, disons que les observés seront concentrés dans une petite région, il sera donc plus difficile d'estimer . Ainsi, la première partie de cette expérience en deux étapes détermine la précision avec laquelle peut être estimée. Il est donc naturel de conditionner par inférence sur les paramètres de régression. C'est l'argument de la conditionnalité, et le schéma ci-dessus montre clairement ses hypothèses.θfψ(x)xθθX=x

Dans les expériences conçues, son hypothèse se maintiendra principalement, souvent avec des données d'observation non. Voici quelques exemples de problèmes: régression avec des réponses retardées comme prédicteurs. Le conditionnement sur les prédicteurs dans ce cas conditionnera également la réponse! (J'ajouterai plus d'exemples).

Un livre qui traite de ces problèmes de manière très détaillée est Information et familles exponentielles: en théorie statistique par O. E Barndorff-Nielsen. Voir en particulier le chapitre 4. L'auteur dit que la logique de séparation dans cette situation est cependant rarement expliquée mais donne les références suivantes: RA Fisher (1956) Statistical Methods and Scientific Inference et Sverdrup (1966) L'état actuel de la théorie de la décision et la théorie de Neyman-Pearson .§4.3

kjetil b halvorsen
la source