J'utilise un modèle OLS avec une variable d'indice d'actif continue comme DV. Mes données sont agrégées à partir de trois communautés similaires à proximité géographique les unes des autres. Malgré cela, j'ai pensé qu'il était important d'utiliser la communauté comme variable de contrôle. Il s'avère que la communauté est significative au niveau de 1% (score t de -4,52). La communauté est une variable nominale / catégorielle codée comme 1,2,3 pour 1 des 3 communautés différentes.
Ma question est de savoir si ce degré élevé de signification signifie que je devrais faire des régressions sur les communautés individuellement plutôt que comme une agrégation. Sinon, l'utilisation de la communauté comme variable de contrôle fait-elle essentiellement cela?
Réponses:
La question suggère une comparaison de trois modèles liés. Pour clarifier la comparaison, soit la variable dépendante, soit X ∈ { 1 , 2 , 3 } le code de communauté actuel et définissons X 1 et X 2 comme indicateurs des communautés 1 et 2, respectivement. (Cela signifie que X 1 = 1 pour la communauté 1 et X 1 = 0 pour les communautés 2 et 3; X 2 = 1 pour la communauté 2 et X 2 = 0Y X∈{1,2,3} X1 X2 X1=1 X1=0 X2=1 X2=0 pour les communautés 1 et 3.)
L'analyse actuelle peut être l'une des suivantes: soit
ou
Dans les deux cas, représente un ensemble de variables aléatoires indépendantes identiquement distribuées avec une attente nulle. Le deuxième modèle est probablement celui prévu, mais le premier modèle est celui qui correspondra au codage décrit dans la question.ε
La sortie de la régression OLS est un ensemble de paramètres ajustés (indiqués par des "chapeaux" sur leurs symboles) ainsi qu'une estimation de la variance commune des erreurs. Dans le premier modèle il y a un test t pour comparer β à 0 . Dans le deuxième modèle, il existe deux tests t: un pour comparer ^ β 1 à 0 et un autre pour comparer ^ β 2 à 0 . Parce que la question ne rapporte qu'un seul test t, commençons par examiner le premier modèle.β^ 0 β1^ 0 β2^ 0
En particulier, le premier modèle oblige les effets communautaires à être en progression arithmétique. Si le codage communautaire est conçu comme un moyen arbitraire de différenciation entre les communautés, cette restriction intégrée est également arbitraire et probablement erronée.
Il est instructif d'effectuer la même analyse détaillée des prédictions du deuxième modèle:
Nous pouvons maintenant évaluer l'effet de trois régressions distinctes. Ils seraient
Cette flexibilité supplémentaire signifie que les résultats du test t pour les paramètres seront probablement différents entre le deuxième et le troisième modèle. (Cependant, cela ne devrait pas conduire à des estimations de paramètres différentes.)
Pour voir si des régressions distinctes sont nécessaires , procédez comme suit:
Montez le deuxième modèle. Tracez les résidus par rapport à la communauté, par exemple sous la forme d'un ensemble de boîtes à moustaches côte à côte ou d'un trio d'histogrammes ou même sous forme de trois diagrammes de probabilité. Recherchez des preuves de différentes formes de distribution et en particulier de variances sensiblement différentes. Si ces preuves sont absentes, le deuxième modèle devrait être correct. S'il est présent, des régressions distinctes sont justifiées.
Lorsque les modèles sont multivariés - c'est-à-dire qu'ils incluent d'autres facteurs - une analyse similaire est possible, avec des conclusions similaires (mais plus compliquées). En général, effectuer des régressions distinctes revient à inclure toutes les interactions bidirectionnelles possibles avec la variable de communauté (codée comme dans le deuxième modèle, pas le premier) et à permettre des distributions d'erreur différentes pour chaque communauté.
la source
la source